Data Science - Statistische Korrelation


Korrelation

Die Korrelation misst die Beziehung zwischen zwei Variablen.

Wir haben erwähnt, dass eine Funktion den Zweck hat, einen Wert vorherzusagen, indem sie die Eingabe (x) in die Ausgabe (f(x)) umwandelt. Wir können auch sagen, dass eine Funktion die Beziehung zwischen zwei Variablen zur Vorhersage verwendet.


Korrelationskoeffizient

Der Korrelationskoeffizient misst die Beziehung zwischen zwei Variablen.

Der Korrelationskoeffizient kann nie kleiner als -1 oder größer als 1 sein.

  • 1 = es gibt eine perfekte lineare Beziehung zwischen den Variablen (wie Average_Pulse gegen Calorie_Burnage)
  • 0 = es besteht kein linearer Zusammenhang zwischen den Variablen
  • -1 = es besteht eine perfekte negative lineare Beziehung zwischen den Variablen (z. B. weniger geleistete Arbeitsstunden führt zu einem höheren Kalorienverbrauch während einer Trainingseinheit)

Beispiel einer perfekten linearen Beziehung (Korrelationskoeffizient = 1)

Wir werden Scatterplot verwenden, um die Beziehung zwischen Average_Pulse und Calorie_Burnage zu visualisieren (wir haben den kleinen Datensatz der Sportuhr mit 10 Beobachtungen verwendet).

Dieses Mal wollen wir Streudiagramme, also ändern wir die Art in "scatter":

Beispiel

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

Ausgabe:

Korrelationskoeffizient = 1

Wie wir bereits gesehen haben, besteht eine perfekte lineare Beziehung zwischen Average_Pulse und Calorie_Burnage.



Beispiel einer perfekten negativen linearen Beziehung (Korrelationskoeffizient = -1)

Korrelationskoeffizient = -1

Wir haben hier fiktive Daten aufgetragen. Die x-Achse stellt die Anzahl der Stunden dar, die wir vor einer Trainingseinheit in unserem Job gearbeitet haben. Die y-Achse ist Calorie_Burnage.

Wenn wir länger arbeiten, verbrennen wir tendenziell weniger Kalorien, weil wir vor der Trainingseinheit erschöpft sind.

Der Korrelationskoeffizient beträgt hier -1.

Beispiel

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

Beispiel für keine lineare Beziehung (Korrelationskoeffizient = 0)

Korrelationskoeffizient = 0

Hier haben wir Max_Pulse gegen Duration aus dem full_health_data Set aufgetragen.

Wie Sie sehen können, gibt es keine lineare Beziehung zwischen den beiden Variablen. Das bedeutet, dass eine längere Trainingseinheit nicht zu einem höheren Max_Puls führt.

Der Korrelationskoeffizient ist hier 0.

Beispiel

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()