Data Science - Statistik Korrelation vs. Kausalität


Korrelation impliziert keine Kausalität

Die Korrelation misst die numerische Beziehung zwischen zwei Variablen.

Ein hoher Korrelationskoeffizient (nahe 1) bedeutet nicht, dass wir mit Sicherheit auf eine tatsächliche Beziehung zwischen zwei Variablen schließen können.

Ein klassisches Beispiel:

  • Im Sommer nimmt der Eisverkauf an einem Strand zu
  • Gleichzeitig nehmen auch die Ertrinkungsunfälle zu

Bedeutet dies, dass die Zunahme des Speiseeisverkaufs eine direkte Ursache für vermehrte Ertrinkungsunfälle ist?


Das Strandbeispiel in Python

Hier haben wir einen fiktiven Datensatz erstellt, den Sie ausprobieren können:

Beispiel

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Ausgabe:

Korrelation vs. Kausalität

Korrelation vs. Kausalität – Das Strandbeispiel

Mit anderen Worten: Können wir den Eisverkauf nutzen, um Ertrinkungsunfälle vorherzusagen?

Die Antwort ist - Wahrscheinlich nicht.

Es ist wahrscheinlich, dass diese beiden Variablen versehentlich miteinander korrelieren.

Was verursacht dann das Ertrinken?

  • Ungeübte Schwimmer
  • Wellen
  • Krampf
  • Anfallsleiden
  • Mangelnde Aufsicht
  • Alkohol (Missbrauch).
  • etc.

Drehen wir das Argument um:

Bedeutet ein niedriger Korrelationskoeffizient (nahe Null), dass eine Änderung von x keinen Einfluss auf y hat?

Zurück zur Frage:

  • Können wir schlussfolgern, dass Average_Pulse Calorie_Burnage aufgrund eines niedrigen Korrelationskoeffizienten nicht beeinflusst?

Die Antwort ist nein.

Es gibt einen wichtigen Unterschied zwischen Korrelation und Kausalität:

  • Korrelation ist eine Zahl, die misst, wie eng die Daten miteinander verbunden sind
  • Kausalität ist die Schlussfolgerung, dass x y verursacht.

Daher ist es wichtig, den Begriff der Kausalität kritisch zu reflektieren, wenn wir Vorhersagen treffen!