Daten-Cluster
- Cluster sind Sammlungen ähnlicher Daten
- Clustering ist eine Form des unüberwachten Lernens
- Der Korrelationskoeffizient beschreibt die Stärke einer Beziehung.
Cluster
Cluster sind Sammlungen von Daten, die auf Ähnlichkeit basieren.
Datenpunkte, die in einem Diagramm zusammengefasst sind, können oft in Cluster eingeteilt werden.
In der folgenden Grafik können wir 3 verschiedene Cluster unterscheiden:
Cluster identifizieren
Cluster können viele wertvolle Informationen enthalten, aber Cluster kommen in allen möglichen Formen vor, wie können wir sie also erkennen?
Die beiden wichtigsten Methoden sind:
- Visualisierung verwenden
- Verwenden eines Clustering-Algorithmus
Clustering
Clustering ist eine Art des unüberwachten Lernens .
Clustering versucht:
- Sammeln Sie ähnliche Daten in Gruppen
- Sammeln Sie unterschiedliche Daten in anderen Gruppen
Clustering-Methoden
- Dichtemethode
- Hierarchische Methode
- Partitionierungsmethode
- Grid-basierte Methode
Die Dichtemethode geht davon aus, dass Punkte in dicht besiedelten Regionen mehr Ähnlichkeiten und Unterschiede aufweisen als Punkte in einer weniger dicht besiedelten Region. Die Dichtemethode hat eine gute Genauigkeit. Es hat auch die Fähigkeit, Cluster zusammenzuführen.
Zwei gängige Algorithmen sind DBSCAN und OPTICS.
Die hierarchische Methode bildet die Cluster in einer baumartigen Struktur. Neue Cluster werden unter Verwendung von zuvor gebildeten Clustern gebildet.
Zwei gängige Algorithmen sind CURE und BIRCH.
Die gitterbasierte Methode formuliert die Daten in eine endliche Anzahl von Zellen, die eine gitterartige Struktur bilden.
Zwei gängige Algorithmen sind CLIQUE und STING
Die Partitionierungsmethode partitioniert die Objekte in k Cluster und jede Partition bildet einen Cluster.
Ein gängiger Algorithmus ist CLARANS.
Korrelationskoeffizient
Der Korrelationskoeffizient (r) beschreibt die Stärke und Richtung einer linearen Beziehung und x/y-Variablen in einem Streudiagramm.
Der Wert von r liegt immer zwischen -1 und +1:
-1.00 | Perfekte Abfahrt | Negative lineare Beziehung. |
-0,70 | Starke Abfahrt | Negative lineare Beziehung. |
-0,50 | Moderat bergab | Negative lineare Beziehung. |
-0,30 | Schwach bergab | Negative lineare Beziehung. |
0 | Keine lineare Beziehung. | |
+0.30 | Schwach bergauf | Positive lineare Beziehung. |
+0,50 | Moderat bergauf | Positive lineare Beziehung. |
+0,70 | Stark bergauf | Positive lineare Beziehung. |
+1.00 | Perfekt bergauf | Positive lineare Beziehung. |
Perfekt bergauf +1.00 :
Perfekte Abfahrt -1.00 :
Stark bergauf +0,61 :
Keine Beziehung :