Datenwissenschaft – Python DataFrame


Erstellen Sie einen DataFrame mit Pandas

Ein Datenrahmen ist eine strukturierte Darstellung von Daten.

Lassen Sie uns einen Datenrahmen mit 3 Spalten und 5 Zeilen mit fiktiven Zahlen definieren:

Beispiel

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Beispiel erklärt

  • Importieren Sie die Pandas-Bibliothek als pd
  • Definieren Sie Daten mit Spalten und Zeilen in einer Variablen namens d
  • Erstellen Sie einen Datenrahmen mit der Funktion pd.DataFrame()
  • Der Datenrahmen enthält 3 Spalten und 5 Zeilen
  • Drucken Sie die Ausgabe des Datenrahmens mit der Funktion print()

Wir schreiben pd. vor DataFrame() , um Python mitzuteilen, dass wir die DataFrame()-Funktion aus der Pandas-Bibliothek aktivieren möchten.

Beachten Sie die Großbuchstaben D und F in DataFrame!


Interpretieren der Ausgabe

Dies ist die Ausgabe:

Dataframe-Ausgabe

Wir sehen, dass "col1", "col2" und "col3" die Namen der Spalten sind.

Lassen Sie sich nicht von den vertikalen Zahlen im Bereich von 0-4 verwirren. Sie geben uns die Information über die Position der Zeilen.

In Python beginnt die Nummerierung der Zeilen bei Null.

Jetzt können wir Python verwenden, um die Spalten und Zeilen zu zählen.

Wir können df.shape[1] verwenden, um die Anzahl der Spalten zu finden:

Beispiel

Zählen Sie die Anzahl der Spalten:

count_column = df.shape[1]
print(count_column)

Wir können df.shape[0] verwenden, um die Anzahl der Zeilen zu finden:

Beispiel

Zählen Sie die Anzahl der Zeilen:

count_row = df.shape[0]
print(count_row)

Warum können wir die Zeilen und Spalten nicht einfach selbst zählen?

Wenn wir mit größeren Datensätzen mit vielen Spalten und Zeilen arbeiten, wird es verwirrend, sie selbst zu zählen. Sie riskieren, es falsch zu zählen. Wenn wir die eingebauten Funktionen in Python richtig verwenden, stellen wir sicher, dass die Zählung korrekt ist.