Data Science - Statistik-Korrelationsmatrix
Korrelationsmatrix
Eine Matrix ist eine Anordnung von Zahlen, die in Zeilen und Spalten angeordnet sind.
Eine Korrelationsmatrix ist einfach eine Tabelle, die die Korrelationskoeffizienten zwischen Variablen zeigt.
Hier werden die Variablen in der ersten Reihe und in der ersten Spalte dargestellt:
In der obigen Tabelle wurden Daten aus dem vollständigen Gesundheitsdatensatz verwendet.
Beobachtungen:
- Wir beobachten, dass Duration und Calorie_Burnage mit einem Korrelationskoeffizienten von 0,89 eng miteinander verbunden sind. Das macht Sinn, denn je länger wir trainieren, desto mehr Kalorien verbrennen wir
- Wir beobachten, dass es fast keine linearen Beziehungen zwischen Average_Pulse und Calorie_Burnage gibt (Korrelationskoeffizient von 0,02).
- Können wir schlussfolgern, dass Average_Pulse Calorie_Burnage nicht beeinflusst? Nein. Wir werden später darauf zurückkommen!
Korrelationsmatrix in Python
Wir können die corr()
Funktion in Python verwenden, um eine Korrelationsmatrix zu erstellen. Wir verwenden die round()
Funktion auch, um die Ausgabe auf zwei Dezimalstellen zu runden:
Beispiel
Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
Ausgabe:
Verwendung einer Heatmap
Wir können eine Heatmap verwenden, um die Korrelation zwischen Variablen zu visualisieren:
Je näher der Korrelationskoeffizient bei 1 liegt, desto grüner werden die Quadrate.
Je näher der Korrelationskoeffizient bei -1 liegt, desto brauner werden die Quadrate.
Verwenden Sie Seaborn, um eine Heatmap zu erstellen
Wir können die Seaborn-Bibliothek verwenden, um eine Korrelations-Heatmap zu erstellen (Seaborn ist eine Visualisierungsbibliothek, die auf Matplotlib basiert):
Beispiel
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health =
full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50,
500, n=500),
square=True
)
plt.show()
Beispiel erklärt:
- Importieren Sie die Bibliothek seaborn als sns.
- Verwenden Sie den Datensatz full_health_data.
- Verwenden Sie sns.heatmap(), um Python mitzuteilen, dass wir eine Heatmap zur Visualisierung der Korrelationsmatrix wünschen.
- Verwenden Sie die Korrelationsmatrix. Definieren Sie die maximalen und minimalen Werte der Heatmap. Definiere, dass 0 das Zentrum ist.
- Definieren Sie die Farben mit sns.diverging_palette. n=500 bedeutet, dass wir 500 Farbtypen in derselben Farbpalette haben wollen.
- square = True bedeutet, dass wir Quadrate sehen wollen.