Maschinelles Lernen – Normale Datenverteilung
Normale Datenverteilung
Im vorigen Kapitel haben wir gelernt, wie man ein völlig zufälliges Array mit einer gegebenen Größe und zwischen zwei gegebenen Werten erstellt.
In diesem Kapitel lernen wir, wie man ein Array erstellt, in dem die Werte um einen bestimmten Wert konzentriert sind.
In der Wahrscheinlichkeitstheorie ist diese Art der Datenverteilung als Normaldatenverteilung oder Gaußsche Datenverteilung bekannt , nach dem Mathematiker Carl Friedrich Gauß, der die Formel dieser Datenverteilung entwickelt hat.
Beispiel
Eine typische normale Datenverteilung:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
Ergebnis:
Hinweis: Eine Normalverteilungskurve wird aufgrund ihrer charakteristischen Glockenform auch als Glockenkurve bezeichnet .
Histogramm erklärt
Wir verwenden das Array aus der numpy.random.normal()
Methode mit 100000 Werten, um ein Histogramm mit 100 Balken zu zeichnen.
Wir geben an, dass der Mittelwert 5,0 und die Standardabweichung 1,0 beträgt.
Das bedeutet, dass sich die Werte um 5,0 konzentrieren sollten und selten weiter als 1,0 vom Mittelwert entfernt sein sollten.
Und wie Sie dem Histogramm entnehmen können, liegen die meisten Werte zwischen 4,0 und 6,0, mit einer Spitze bei etwa 5,0.