Pandas - Analysieren von DataFrames


Anzeigen der Daten

Eine der am häufigsten verwendeten Methoden, um sich einen schnellen Überblick über den DataFrame zu verschaffen, ist die head()Methode.

Die head()Methode gibt die Kopfzeilen und eine angegebene Anzahl von Zeilen zurück, beginnend von oben.

Beispiel

Verschaffen Sie sich einen schnellen Überblick, indem Sie die ersten 10 Zeilen des DataFrames drucken:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

In unseren Beispielen verwenden wir eine CSV-Datei mit dem Namen „data.csv“.

Laden Sie data.csv herunter oder öffnen Sie data.csv in Ihrem Browser.

Hinweis: Wenn die Anzahl der Zeilen nicht angegeben ist, gibt die head()Methode die obersten 5 Zeilen zurück.

Beispiel

Drucken Sie die ersten 5 Zeilen des DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Es gibt auch eine tail()Methode zum Anzeigen der letzten Zeilen des DataFrame.

Die tail()Methode gibt die Kopfzeilen und eine bestimmte Anzahl von Zeilen zurück, beginnend von unten.

Beispiel

Drucken Sie die letzten 5 Zeilen des DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Zertifiziert werden!

Absolvieren Sie die Pandas-Module, machen Sie die Übungen, machen Sie die Prüfung und Sie werden w3schools-zertifiziert!

$10 REGISTRIEREN

Info zu den Daten

Das DataFrames-Objekt hat eine Methode namens info(), die Ihnen weitere Informationen über den Datensatz liefert.

Beispiel

Druckinformationen zu den Daten:

print(df.info()) 

Ergebnis

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Ergebnis erklärt

Das Ergebnis sagt uns, dass es 169 Zeilen und 4 Spalten gibt:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

Und der Name jeder Spalte mit dem Datentyp:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Nullwerte

Die info()Methode teilt uns auch mit, wie viele Nicht-Null-Werte in jeder Spalte vorhanden sind, und in unserem Datensatz scheint es, als gäbe es 164 von 169 Nicht-Null-Werten in der Spalte „Kalorien“.

Das bedeutet, dass in der Spalte "Kalorien" aus irgendeinem Grund 5 Zeilen ohne Wert sind.

Leere Werte oder Nullwerte können beim Analysieren von Daten schlecht sein, und Sie sollten erwägen, Zeilen mit leeren Werten zu entfernen. Dies ist ein Schritt in Richtung sogenannter Reinigungsdaten , und Sie werden in den nächsten Kapiteln mehr darüber erfahren.