Maschinelles Lernen - Datenverteilung
Datenverteilung
Zu Beginn dieses Tutorials haben wir in unseren Beispielen mit sehr kleinen Datenmengen gearbeitet, nur um die verschiedenen Konzepte zu verstehen.
In der realen Welt sind die Datensätze viel größer, aber es kann schwierig sein, reale Daten zu sammeln, zumindest in einer frühen Phase eines Projekts.
Wie können wir große Datensätze erhalten?
Um große Datensätze zum Testen zu erstellen, verwenden wir das Python-Modul NumPy, das mit einer Reihe von Methoden zum Erstellen zufälliger Datensätze beliebiger Größe ausgestattet ist.
Beispiel
Erstellen Sie ein Array mit 250 zufälligen Floats zwischen 0 und 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
Histogramm
Um den Datensatz zu visualisieren, können wir ein Histogramm mit den von uns gesammelten Daten zeichnen.
Wir werden das Python-Modul Matplotlib verwenden, um ein Histogramm zu zeichnen.
Erfahren Sie mehr über das Matplotlib-Modul in unserem Matplotlib-Tutorial .
Beispiel
Zeichnen Sie ein Histogramm:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Ergebnis:
Histogramm erklärt
Wir verwenden das Array aus dem obigen Beispiel, um ein Histogramm mit 5 Balken zu zeichnen.
Der erste Balken stellt dar, wie viele Werte im Array zwischen 0 und 1 liegen.
Der zweite Balken stellt dar, wie viele Werte zwischen 1 und 2 liegen.
Etc.
Was uns dieses Ergebnis liefert:
- 52 Werte liegen zwischen 0 und 1
- 48 Werte liegen zwischen 1 und 2
- 49 Werte liegen zwischen 2 und 3
- 51 Werte liegen zwischen 3 und 4
- 50 Werte liegen zwischen 4 und 5
Hinweis: Die Array-Werte sind Zufallszahlen und zeigen auf Ihrem Computer nicht genau das gleiche Ergebnis.
Big-Data-Verteilungen
Ein Array mit 250 Werten wird nicht als sehr groß angesehen, aber jetzt wissen Sie, wie Sie einen zufälligen Satz von Werten erstellen, und durch Ändern der Parameter können Sie den Datensatz so groß erstellen, wie Sie möchten.
Beispiel
Erstellen Sie ein Array mit 100000 Zufallszahlen und zeigen Sie sie mit einem Histogramm mit 100 Balken an:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()