Pandas - Datenkorrelationen
Beziehungen finden
Ein großartiger Aspekt des Pandas-Moduls ist die corr()
Methode.
Die corr()
Methode berechnet die Beziehung zwischen jeder Spalte in Ihrem Datensatz.
Die Beispiele auf dieser Seite verwenden eine CSV-Datei mit dem Namen „data.csv“.
Daten.csv herunterladen . oder Daten.csv öffnen
Beispiel
Zeigen Sie die Beziehung zwischen den Spalten:
df.corr()
Ergebnis
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Hinweis:
Die corr()
Methode ignoriert "nicht numerische" Spalten.
Ergebnis erklärt
Das Ergebnis der corr()
Methode ist eine Tabelle mit vielen Zahlen, die darstellt, wie gut die Beziehung zwischen zwei Spalten ist.
Die Zahl variiert von -1 bis 1.
1 bedeutet, dass es eine 1-zu-1-Beziehung gibt (eine perfekte Korrelation), und für diesen Datensatz stieg jedes Mal, wenn ein Wert in der ersten Spalte anstieg, auch der andere.
0,9 ist auch ein gutes Verhältnis, und wenn Sie einen Wert erhöhen, wird der andere wahrscheinlich auch steigen.
-0,9 wäre ein ebenso gutes Verhältnis wie 0,9, aber wenn Sie einen Wert erhöhen, wird der andere wahrscheinlich sinken.
0,2 bedeutet KEINE gute Beziehung, dh wenn ein Wert steigt, bedeutet dies nicht, dass der andere steigt.
Was ist eine gute Korrelation?
Es hängt von der Verwendung ab, aber ich denke, man kann mit Sicherheit sagen, dass man mindestens 0.6
(oder -0.6
) haben muss, um von einer guten Korrelation zu sprechen.
Perfekte Korrelation:
Wir können sehen, dass "Duration" und "Duration" die Zahl bekommen 1.000000
haben, was Sinn macht, jede Spalte hat immer eine perfekte Beziehung zu sich selbst.
Gute Korrelation:
„Dauer“ und „Kalorien“ haben eine 0.922721
Korrelation, was eine sehr gute Korrelation ist, und wir können vorhersagen, dass je länger Sie trainieren, desto mehr Kalorien Sie verbrennen und umgekehrt: Wenn Sie viele Kalorien verbrannt haben, Sie wahrscheinlich hatte eine lange Arbeit aus.
Schlechte Korrelation:
„Dauer“ und „Maxpuls“ haben eine 0.009403
Korrelation, die eine sehr schlechte Korrelation ist, was bedeutet, dass wir den maximalen Puls nicht vorhersagen können, indem wir nur die Dauer des Trainings betrachten, und umgekehrt.
Zertifiziert werden!
$10 REGISTRIEREN