Data Science - Varianz der Statistik
Varianz
Varianz ist eine weitere Zahl, die angibt, wie weit die Werte verteilt sind.
In der Tat, wenn Sie die Quadratwurzel der Varianz ziehen, erhalten Sie die Standardabweichung. Oder umgekehrt, wenn Sie die Standardabweichung mit sich selbst multiplizieren, erhalten Sie die Varianz!
Wir werden zunächst den Datensatz mit 10 Beobachtungen verwenden, um ein Beispiel zu geben, wie wir die Varianz berechnen können:
Dauer | Average_Pulse | Max_Puls | Kalorienverbrauch | Stunden_Arbeit | Stunden_Schlaf |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Varianz wird oft durch das Symbol Sigmaquadrat dargestellt: σ^2
Schritt 1 zur Berechnung der Varianz: Finden Sie den Mittelwert
Wir wollen die Varianz von Average_Pulse finden.
1. Finden Sie den Mittelwert:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Der Mittelwert liegt bei 102,5
Schritt 2: Finden Sie für jeden Wert die Differenz zum Mittelwert
2. Finden Sie die Differenz vom Mittelwert für jeden Wert:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Schritt 3: Für jeden Unterschied – Finden Sie den Quadratwert
3. Ermitteln Sie den Quadratwert für jede Differenz:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Hinweis: Wir müssen die Werte quadrieren, um die Gesamtspanne zu erhalten.
Schritt 4: Die Varianz ist die durchschnittliche Anzahl dieser quadrierten Werte
4. Summiere die quadrierten Werte und finde den Durchschnitt:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Die Abweichung beträgt 206,25.
Verwenden Sie Python, um die Varianz von health_data zu finden
Wir können die var()
Funktion von Numpy verwenden, um die Varianz zu finden (denken Sie daran, dass wir jetzt den ersten Datensatz mit 10 Beobachtungen verwenden):
Beispiel
import numpy as np
var = np.var(health_data)
print(var)
Die Ausgabe:
Verwenden Sie Python, um die Varianz des vollständigen Datensatzes zu finden
Hier berechnen wir die Varianz für jede Spalte für den vollständigen Datensatz:
Beispiel
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Die Ausgabe: