Pandas - Plotten
Plotten
Pandas verwendet die plot()
Methode, um Diagramme zu erstellen.
Wir können Pyplot verwenden, ein Untermodul der Matplotlib-Bibliothek, um das Diagramm auf dem Bildschirm zu visualisieren.
Lesen Sie mehr über Matplotlib in unserem Matplotlib-Tutorial .
Beispiel
Importieren Sie Pyplot aus Matplotlib und visualisieren Sie unseren DataFrame:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot()
plt.show()
Die Beispiele auf dieser Seite verwenden eine CSV-Datei mit dem Namen „data.csv“.
Laden Sie data.csv herunter oder öffnen Sie data.csv
Streudiagramm
Geben Sie an, dass Sie ein Streudiagramm mit dem
kind
Argument wünschen:
kind = 'scatter'
Ein Streudiagramm benötigt eine x- und eine y-Achse.
Im folgenden Beispiel verwenden wir „Dauer“ für die x-Achse und „Kalorien“ für die y-Achse.
Schließen Sie die x- und y-Argumente wie folgt ein:
x = 'Duration', y = 'Calories'
Beispiel
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')
plt.show()
Ergebnis
Denken Sie daran:
Im vorherigen Beispiel haben wir gelernt, dass die Korrelation zwischen "Dauer" und "Kalorien" war 0.922721
, und wir haben daraus geschlossen, dass eine höhere Dauer mehr verbrannte Kalorien bedeutet.
Wenn ich mir das Streudiagramm ansehe, stimme ich zu.
Lassen Sie uns ein weiteres Streudiagramm erstellen, in dem eine schlechte Beziehung zwischen den Spalten wie "Duration" und "Maxpulse" mit der Korrelation besteht 0.009403
:
Beispiel
Ein Streudiagramm, bei dem es keine Beziehung zwischen den Spalten gibt:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot(kind = 'scatter', x = 'Duration', y = 'Maxpulse')
plt.show()
Ergebnis
Zertifiziert werden!
$10 REGISTRIEREN
Histogramm
Verwenden Sie das
kind
Argument, um anzugeben, dass Sie ein Histogramm wünschen:
kind = 'hist'
Ein Histogramm benötigt nur eine Spalte.
Ein Histogramm zeigt uns die Häufigkeit jedes Intervalls, zB wie viele Trainingseinheiten dauerten zwischen 50 und 60 Minuten?
Im folgenden Beispiel verwenden wir die Spalte "Dauer", um das Histogramm zu erstellen:
Beispiel
df["Duration"].plot(kind = 'hist')
Ergebnis
Hinweis: Das Histogramm sagt uns, dass es über 100 Trainings gab, die zwischen 50 und 60 Minuten gedauert haben.