Data Science - Statistik-Standardabweichung


Standardabweichung

Die Standardabweichung ist eine Zahl, die beschreibt, wie weit die Beobachtungen gestreut sind.

Standardabweichung

Eine mathematische Funktion wird Schwierigkeiten haben, genaue Werte vorherzusagen, wenn die Beobachtungen "gestreut" sind. Die Standardabweichung ist ein Maß für die Unsicherheit.

Eine niedrige Standardabweichung bedeutet, dass die meisten Zahlen nahe am mittleren (durchschnittlichen) Wert liegen.

Eine hohe Standardabweichung bedeutet, dass die Werte über einen größeren Bereich gestreut sind.

Die Standardabweichung wird oft durch das Symbol Sigma dargestellt: σ

Wir können die std()Funktion von Numpy verwenden, um die Standardabweichung einer Variablen zu finden:

Beispiel

import numpy as np

std = np.std(full_health_data)
print(std)

Die Ausgabe:

Standardabweichung

Was bedeuten diese Zahlen?


Variationskoeffizient

Der Variationskoeffizient wird verwendet, um eine Vorstellung davon zu bekommen, wie groß die Standardabweichung ist.

Mathematisch ist der Variationskoeffizient definiert als:

Coefficient of Variation = Standard Deviation / Mean

 Wir können dies in Python tun, wenn wir mit dem folgenden Code fortfahren:

Beispiel

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

Die Ausgabe:

Variationskoeffizient

Wir sehen, dass die Variablen Duration, Calorie_Burnage und Hours_Work im Vergleich zu Max_Pulse, Average_Pulse und Hours_Sleep eine hohe Standardabweichung aufweisen.