Data Science - Statistik-Korrelationsmatrix


Korrelationsmatrix

Eine Matrix ist eine Anordnung von Zahlen, die in Zeilen und Spalten angeordnet sind.

Eine Korrelationsmatrix ist einfach eine Tabelle, die die Korrelationskoeffizienten zwischen Variablen zeigt.

Hier werden die Variablen in der ersten Reihe und in der ersten Spalte dargestellt:

Korrelationsmatrix

In der obigen Tabelle wurden Daten aus dem vollständigen Gesundheitsdatensatz verwendet.

Beobachtungen:

  • Wir beobachten, dass Duration und Calorie_Burnage mit einem Korrelationskoeffizienten von 0,89 eng miteinander verbunden sind. Das macht Sinn, denn je länger wir trainieren, desto mehr Kalorien verbrennen wir
  • Wir beobachten, dass es fast keine linearen Beziehungen zwischen Average_Pulse und Calorie_Burnage gibt (Korrelationskoeffizient von 0,02).
  • Können wir schlussfolgern, dass Average_Pulse Calorie_Burnage nicht beeinflusst? Nein. Wir werden später darauf zurückkommen!

Korrelationsmatrix in Python

Wir können die corr()Funktion in Python verwenden, um eine Korrelationsmatrix zu erstellen. Wir verwenden die round()Funktion auch, um die Ausgabe auf zwei Dezimalstellen zu runden:

Beispiel

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Ausgabe:

Korrelationsmatrix

Verwendung einer Heatmap

Wir können eine Heatmap verwenden, um die Korrelation zwischen Variablen zu visualisieren:

Korrelations-Heatmap

Je näher der Korrelationskoeffizient bei 1 liegt, desto grüner werden die Quadrate.

Je näher der Korrelationskoeffizient bei -1 liegt, desto brauner werden die Quadrate.


Verwenden Sie Seaborn, um eine Heatmap zu erstellen

Wir können die Seaborn-Bibliothek verwenden, um eine Korrelations-Heatmap zu erstellen (Seaborn ist eine Visualisierungsbibliothek, die auf Matplotlib basiert):

Beispiel

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

Beispiel erklärt:

  • Importieren Sie die Bibliothek seaborn als sns.
  • Verwenden Sie den Datensatz full_health_data.
  • Verwenden Sie sns.heatmap(), um Python mitzuteilen, dass wir eine Heatmap zur Visualisierung der Korrelationsmatrix wünschen.
  • Verwenden Sie die Korrelationsmatrix. Definieren Sie die maximalen und minimalen Werte der Heatmap. Definiere, dass 0 das Zentrum ist.
  • Definieren Sie die Farben mit sns.diverging_palette. n=500 bedeutet, dass wir 500 Farbtypen in derselben Farbpalette haben wollen.
  • square = True bedeutet, dass wir Quadrate sehen wollen.