Pandas - Datenkorrelationen


Beziehungen finden

Ein großartiger Aspekt des Pandas-Moduls ist die corr()Methode.

Die corr()Methode berechnet die Beziehung zwischen jeder Spalte in Ihrem Datensatz.

Die Beispiele auf dieser Seite verwenden eine CSV-Datei mit dem Namen „data.csv“.

Daten.csv herunterladen . oder Daten.csv öffnen

Beispiel

Zeigen Sie die Beziehung zwischen den Spalten:

df.corr()

Ergebnis

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Hinweis: Die corr()Methode ignoriert "nicht numerische" Spalten.

Ergebnis erklärt

Das Ergebnis der corr()Methode ist eine Tabelle mit vielen Zahlen, die darstellt, wie gut die Beziehung zwischen zwei Spalten ist.

Die Zahl variiert von -1 bis 1.

1 bedeutet, dass es eine 1-zu-1-Beziehung gibt (eine perfekte Korrelation), und für diesen Datensatz stieg jedes Mal, wenn ein Wert in der ersten Spalte anstieg, auch der andere.

0,9 ist auch ein gutes Verhältnis, und wenn Sie einen Wert erhöhen, wird der andere wahrscheinlich auch steigen.

-0,9 wäre ein ebenso gutes Verhältnis wie 0,9, aber wenn Sie einen Wert erhöhen, wird der andere wahrscheinlich sinken.

0,2 bedeutet KEINE gute Beziehung, dh wenn ein Wert steigt, bedeutet dies nicht, dass der andere steigt.

Was ist eine gute Korrelation? Es hängt von der Verwendung ab, aber ich denke, man kann mit Sicherheit sagen, dass man mindestens 0.6(oder -0.6) haben muss, um von einer guten Korrelation zu sprechen.

Perfekte Korrelation:

Wir können sehen, dass "Duration" und "Duration" die Zahl bekommen 1.000000haben, was Sinn macht, jede Spalte hat immer eine perfekte Beziehung zu sich selbst.

Gute Korrelation:

„Dauer“ und „Kalorien“ haben eine 0.922721Korrelation, was eine sehr gute Korrelation ist, und wir können vorhersagen, dass je länger Sie trainieren, desto mehr Kalorien Sie verbrennen und umgekehrt: Wenn Sie viele Kalorien verbrannt haben, Sie wahrscheinlich hatte eine lange Arbeit aus.

Schlechte Korrelation:

„Dauer“ und „Maxpuls“ haben eine 0.009403Korrelation, die eine sehr schlechte Korrelation ist, was bedeutet, dass wir den maximalen Puls nicht vorhersagen können, indem wir nur die Dauer des Trainings betrachten, und umgekehrt.


Testen Sie sich mit Übungen

Übung:

Fügen Sie eine korrekte Syntax zum Suchen von Beziehungen zwischen Spalten in einem DataFrame ein.

df.()


w3schools CERTIFIED . 2021

Zertifiziert werden!

Absolvieren Sie die Pandas-Module, machen Sie die Übungen, machen Sie die Prüfung und Sie werden w3schools-zertifiziert!

$10 REGISTRIEREN