Python -Tutorial

Python-HOME Python-Einführung Python-Erste Schritte Python-Syntax Python-Kommentare Python-Variablen Python-Datentypen Python-Zahlen Python-Casting Python-Strings Python-Booleans Python-Operatoren Python-Listen Python-Tupel Python-Sets Python-Wörterbücher Python Wenn ... Sonst Python-While-Schleifen Python-For-Schleifen Python-Funktionen Python-Lambda Python-Arrays Python-Klassen/Objekte Python-Vererbung Python-Iteratoren Python-Bereich Python-Module Python-Daten Python-Mathematik Python-JSON Python-RegEx Python-PIP Python Versuchen ... Außer Python-Benutzereingabe Formatierung von Python-Strings

Umgang mit Dateien

Umgang mit Python-Dateien Python-Dateien lesen Python-Dateien schreiben/erstellen Python-Dateien löschen

Python-Module

NumPy-Tutorial Panda-Komplettlösung Scipy-Tutorial

Python-Matplotlib

Matplotlib-Einführung Matplotlib loslegen Matplotlib-Pyplot Matplotlib-Plotten Matplotlib-Marker Matplotlib-Linie Matplotlib-Labels Matplotlib-Raster Matplotlib-Subplots Matplotlib-Scatter Matplotlib-Bars Matplotlib-Histogramme Matplotlib-Kreisdiagramme

Maschinelles Lernen

Einstieg Mittlerer Medianmodus Standardabweichung Perzentil Datenverteilung Normale Datenverteilung Streudiagramm Lineare Regression Polynomiale Regression Mehrfache Regression Skala Trainieren/Testen Entscheidungsbaum

Python-MySQL

MySQL-erste Schritte MySQL-Datenbank erstellen MySQL-Tabelle erstellen MySQL-Einfügung MySQL-Auswahl MySQL-Wo MySQL-Reihenfolge nach MySQL löschen MySQL-Drop-Tabelle MySQL-Update MySQL-Limit MySQL-Beitritt

Python-MongoDB

Beginnen Sie mit MongoDB MongoDB Datenbank erstellen MongoDB-Create-Sammlung MongoDB-Einfügung MongoDB-Suche MongoDB-Abfrage MongoDB-Sortierung MongoDB löschen MongoDB-Drop-Sammlung MongoDB-Update MongoDB-Limit

Python-Referenz

Python-Übersicht Eingebaute Python-Funktionen Python-String-Methoden Python-Listenmethoden Methoden des Python-Wörterbuchs Python-Tupelmethoden Python-Set-Methoden Python-Dateimethoden Python-Schlüsselwörter Python-Ausnahmen Python-Glossar

Modulreferenz

Zufallsmodul Anforderungsmodul Statistikmodul Mathe-Modul cMath-Modul

Python-Anleitung

Listenduplikate entfernen Einen String umkehren Fügen Sie zwei Zahlen hinzu

Python-Beispiele

Python-Beispiele Python-Compiler Python-Übungen Python-Quiz Python-Zertifikat

Maschinelles Lernen - Datenverteilung


Datenverteilung

Zu Beginn dieses Tutorials haben wir in unseren Beispielen mit sehr kleinen Datenmengen gearbeitet, nur um die verschiedenen Konzepte zu verstehen.

In der realen Welt sind die Datensätze viel größer, aber es kann schwierig sein, reale Daten zu sammeln, zumindest in einer frühen Phase eines Projekts.

Wie können wir große Datensätze erhalten?

Um große Datensätze zum Testen zu erstellen, verwenden wir das Python-Modul NumPy, das mit einer Reihe von Methoden zum Erstellen zufälliger Datensätze beliebiger Größe ausgestattet ist.

Beispiel

Erstellen Sie ein Array mit 250 zufälligen Floats zwischen 0 und 5:

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

Histogramm

Um den Datensatz zu visualisieren, können wir ein Histogramm mit den von uns gesammelten Daten zeichnen.

Wir werden das Python-Modul Matplotlib verwenden, um ein Histogramm zu zeichnen.

Erfahren Sie mehr über das Matplotlib-Modul in unserem Matplotlib-Tutorial .

Beispiel

Zeichnen Sie ein Histogramm:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Ergebnis:

Histogramm erklärt

Wir verwenden das Array aus dem obigen Beispiel, um ein Histogramm mit 5 Balken zu zeichnen.

Der erste Balken stellt dar, wie viele Werte im Array zwischen 0 und 1 liegen.

Der zweite Balken stellt dar, wie viele Werte zwischen 1 und 2 liegen.

Etc.

Was uns dieses Ergebnis liefert:

  • 52 Werte liegen zwischen 0 und 1
  • 48 Werte liegen zwischen 1 und 2
  • 49 Werte liegen zwischen 2 und 3
  • 51 Werte liegen zwischen 3 und 4
  • 50 Werte liegen zwischen 4 und 5

Hinweis: Die Array-Werte sind Zufallszahlen und zeigen auf Ihrem Computer nicht genau das gleiche Ergebnis.

Big-Data-Verteilungen

Ein Array mit 250 Werten wird nicht als sehr groß angesehen, aber jetzt wissen Sie, wie Sie einen zufälligen Satz von Werten erstellen, und durch Ändern der Parameter können Sie den Datensatz so groß erstellen, wie Sie möchten.

Beispiel

Erstellen Sie ein Array mit 100000 Zufallszahlen und zeigen Sie sie mit einem Histogramm mit 100 Balken an:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()