Data Science - Statistik-Standardabweichung
Standardabweichung
Die Standardabweichung ist eine Zahl, die beschreibt, wie weit die Beobachtungen gestreut sind.
Eine mathematische Funktion wird Schwierigkeiten haben, genaue Werte vorherzusagen, wenn die Beobachtungen "gestreut" sind. Die Standardabweichung ist ein Maß für die Unsicherheit.
Eine niedrige Standardabweichung bedeutet, dass die meisten Zahlen nahe am mittleren (durchschnittlichen) Wert liegen.
Eine hohe Standardabweichung bedeutet, dass die Werte über einen größeren Bereich gestreut sind.
Die Standardabweichung wird oft durch das Symbol Sigma dargestellt: σ
Wir können die std()
Funktion von Numpy verwenden, um die Standardabweichung einer Variablen zu finden:
Beispiel
import numpy as np
std = np.std(full_health_data)
print(std)
Die Ausgabe:
Was bedeuten diese Zahlen?
Variationskoeffizient
Der Variationskoeffizient wird verwendet, um eine Vorstellung davon zu bekommen, wie groß die Standardabweichung ist.
Mathematisch ist der Variationskoeffizient definiert als:
Coefficient of Variation = Standard Deviation / Mean
Wir können dies in Python tun, wenn wir mit dem folgenden Code fortfahren:
Beispiel
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
Die Ausgabe:
Wir sehen, dass die Variablen Duration, Calorie_Burnage und Hours_Work im Vergleich zu Max_Pulse, Average_Pulse und Hours_Sleep eine hohe Standardabweichung aufweisen.