Data Science - Varianz der Statistik

Varianz

Varianz ist eine weitere Zahl, die angibt, wie weit die Werte verteilt sind.

In der Tat, wenn Sie die Quadratwurzel der Varianz ziehen, erhalten Sie die Standardabweichung. Oder umgekehrt, wenn Sie die Standardabweichung mit sich selbst multiplizieren, erhalten Sie die Varianz!

Wir werden zunächst den Datensatz mit 10 Beobachtungen verwenden, um ein Beispiel zu geben, wie wir die Varianz berechnen können:

Dauer	Average_Pulse	Max_Puls	Kalorienverbrauch	Stunden_Arbeit	Stunden_Schlaf
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

Varianz wird oft durch das Symbol Sigmaquadrat dargestellt: σ^2

Schritt 1 zur Berechnung der Varianz: Finden Sie den Mittelwert

Wir wollen die Varianz von Average_Pulse finden.

1. Finden Sie den Mittelwert:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Der Mittelwert liegt bei 102,5

Schritt 2: Finden Sie für jeden Wert die Differenz zum Mittelwert

2. Finden Sie die Differenz vom Mittelwert für jeden Wert:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Schritt 3: Für jeden Unterschied – Finden Sie den Quadratwert

3. Ermitteln Sie den Quadratwert für jede Differenz:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Hinweis: Wir müssen die Werte quadrieren, um die Gesamtspanne zu erhalten.

Schritt 4: Die Varianz ist die durchschnittliche Anzahl dieser quadrierten Werte

4. Summiere die quadrierten Werte und finde den Durchschnitt:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Die Abweichung beträgt 206,25.

Verwenden Sie Python, um die Varianz von health_data zu finden

Wir können die var()Funktion von Numpy verwenden, um die Varianz zu finden (denken Sie daran, dass wir jetzt den ersten Datensatz mit 10 Beobachtungen verwenden):

Beispiel

import numpy as np

var = np.var(health_data)
print(var)

Die Ausgabe:

Verwenden Sie Python, um die Varianz des vollständigen Datensatzes zu finden

Hier berechnen wir die Varianz für jede Spalte für den vollständigen Datensatz:

Beispiel

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Die Ausgabe:

❮ Vorherige Nächste ❯

Datenwissenschaft

DS Math

DS-Statistiken

DS Advanced

Data Science - Varianz der Statistik

Varianz

Schritt 1 zur Berechnung der Varianz: Finden Sie den Mittelwert

Schritt 2: Finden Sie für jeden Wert die Differenz zum Mittelwert

Schritt 3: Für jeden Unterschied – Finden Sie den Quadratwert

Schritt 4: Die Varianz ist die durchschnittliche Anzahl dieser quadrierten Werte

Verwenden Sie Python, um die Varianz von health_data zu finden

Beispiel

Verwenden Sie Python, um die Varianz des vollständigen Datensatzes zu finden

Beispiel

Dauer	Average_Pulse	Max_Puls	Kalorienverbrauch	Stunden_Arbeit	Stunden_Schlaf
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

Dauer	Average_Pulse	Max_Puls	Kalorienverbrauch	Stunden_Arbeit	Stunden_Schlaf
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

Dauer	Average_Pulse	Max_Puls	Kalorienverbrauch	Stunden_Arbeit	Stunden_Schlaf
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8