Data Science - Varianz der Statistik


Varianz

Varianz ist eine weitere Zahl, die angibt, wie weit die Werte verteilt sind.

In der Tat, wenn Sie die Quadratwurzel der Varianz ziehen, erhalten Sie die Standardabweichung. Oder umgekehrt, wenn Sie die Standardabweichung mit sich selbst multiplizieren, erhalten Sie die Varianz!

Wir werden zunächst den Datensatz mit 10 Beobachtungen verwenden, um ein Beispiel zu geben, wie wir die Varianz berechnen können:

Dauer Average_Pulse Max_Puls Kalorienverbrauch Stunden_Arbeit Stunden_Schlaf
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Varianz wird oft durch das Symbol Sigmaquadrat dargestellt: σ^2


Schritt 1 zur Berechnung der Varianz: Finden Sie den Mittelwert

Wir wollen die Varianz von Average_Pulse finden.

1. Finden Sie den Mittelwert:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Der Mittelwert liegt bei 102,5


Schritt 2: Finden Sie für jeden Wert die Differenz zum Mittelwert

2. Finden Sie die Differenz vom Mittelwert für jeden Wert:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Schritt 3: Für jeden Unterschied – Finden Sie den Quadratwert

3. Ermitteln Sie den Quadratwert für jede Differenz:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Hinweis: Wir müssen die Werte quadrieren, um die Gesamtspanne zu erhalten.



Schritt 4: Die Varianz ist die durchschnittliche Anzahl dieser quadrierten Werte

4. Summiere die quadrierten Werte und finde den Durchschnitt:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Die Abweichung beträgt 206,25.


Verwenden Sie Python, um die Varianz von health_data zu finden

Wir können die var()Funktion von Numpy verwenden, um die Varianz zu finden (denken Sie daran, dass wir jetzt den ersten Datensatz mit 10 Beobachtungen verwenden):

Beispiel

import numpy as np

var = np.var(health_data)
print(var)

Die Ausgabe:

Varianz

Verwenden Sie Python, um die Varianz des vollständigen Datensatzes zu finden

Hier berechnen wir die Varianz für jede Spalte für den vollständigen Datensatz:

Beispiel

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Die Ausgabe:

Varianz