Maschinelles Lernen – Standardabweichung
Was ist Standardabweichung?
Die Standardabweichung ist eine Zahl, die beschreibt, wie weit die Werte gestreut sind.
Eine niedrige Standardabweichung bedeutet, dass die meisten Zahlen nahe am mittleren (durchschnittlichen) Wert liegen.
Eine hohe Standardabweichung bedeutet, dass die Werte über einen größeren Bereich gestreut sind.
Beispiel: Diesmal haben wir die Geschwindigkeit von 7 Autos registriert:
speed = [86,87,88,86,87,85,86]
Die Standardabweichung ist:
0.9
Das bedeutet, dass die meisten Werte im Bereich von 0,9 vom Mittelwert liegen, der 86,4 beträgt.
Lassen Sie uns dasselbe mit einer Auswahl von Zahlen mit einem größeren Bereich tun:
speed = [32,111,138,28,59,77,97]
Die Standardabweichung ist:
37.85
Das bedeutet, dass die meisten Werte im Bereich von 37,85 vom Mittelwert, der 77,4 beträgt, liegen.
Wie Sie sehen können, weist eine höhere Standardabweichung darauf hin, dass die Werte über einen größeren Bereich verteilt sind.
Das NumPy-Modul verfügt über eine Methode zur Berechnung der Standardabweichung:
Beispiel
Verwenden Sie die NumPy std()
-Methode, um die Standardabweichung zu ermitteln:
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
Beispiel
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Varianz
Varianz ist eine weitere Zahl, die angibt, wie weit die Werte verteilt sind.
In der Tat, wenn Sie die Quadratwurzel der Varianz ziehen, erhalten Sie die Standardabweichung!
Oder umgekehrt, wenn Sie die Standardabweichung mit sich selbst multiplizieren, erhalten Sie die Varianz!
Um die Varianz zu berechnen, müssen Sie wie folgt vorgehen:
1. Finden Sie den Mittelwert:
(32+111+138+28+59+77+97) / 7 = 77.4
2. Für jeden Wert: Finden Sie die Differenz zum Mittelwert:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3. Für jede Differenz: Finden Sie den Quadratwert:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. Die Varianz ist die durchschnittliche Anzahl dieser quadrierten Differenzen:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
Glücklicherweise hat NumPy eine Methode zur Berechnung der Varianz:
Beispiel
Verwenden Sie die NumPy- var()
Methode, um die Varianz zu finden:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
Standardabweichung
Wie wir gelernt haben, ist die Formel zum Ermitteln der Standardabweichung die Quadratwurzel der Varianz:
√1432.25 = 37.85
Oder verwenden Sie, wie im vorherigen Beispiel, NumPy, um die Standardabweichung zu berechnen:
Beispiel
Verwenden Sie die NumPy std()
-Methode, um die Standardabweichung zu ermitteln:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Symbole
Die Standardabweichung wird oft durch das Symbol Sigma dargestellt: σ
Varianz wird oft durch das Symbol Sigmaquadrat dargestellt: σ 2
Kapitelzusammenfassung
Standardabweichung und Varianz sind Begriffe, die beim maschinellen Lernen häufig verwendet werden. Daher ist es wichtig zu verstehen, wie man sie erhält, und das Konzept dahinter.