Daten-Cluster

  • Cluster sind Sammlungen ähnlicher Daten
  • Clustering ist eine Form des unüberwachten Lernens
  • Der Korrelationskoeffizient beschreibt die Stärke einer Beziehung.

Cluster

Cluster sind Sammlungen von Daten, die auf Ähnlichkeit basieren.

Datenpunkte, die in einem Diagramm zusammengefasst sind, können oft in Cluster eingeteilt werden.

In der folgenden Grafik können wir 3 verschiedene Cluster unterscheiden:


Cluster identifizieren

Cluster können viele wertvolle Informationen enthalten, aber Cluster kommen in allen möglichen Formen vor, wie können wir sie also erkennen?

Die beiden wichtigsten Methoden sind:

  • Visualisierung verwenden
  • Verwenden eines Clustering-Algorithmus

Clustering

Clustering ist eine Art des unüberwachten Lernens .

Clustering versucht:

  • Sammeln Sie ähnliche Daten in Gruppen
  • Sammeln Sie unterschiedliche Daten in anderen Gruppen

Clustering-Methoden

  • Dichtemethode
  • Hierarchische Methode
  • Partitionierungsmethode
  • Grid-basierte Methode

Die Dichtemethode geht davon aus, dass Punkte in dicht besiedelten Regionen mehr Ähnlichkeiten und Unterschiede aufweisen als Punkte in einer weniger dicht besiedelten Region. Die Dichtemethode hat eine gute Genauigkeit. Es hat auch die Fähigkeit, Cluster zusammenzuführen.
Zwei gängige Algorithmen sind DBSCAN und OPTICS.

Die hierarchische Methode bildet die Cluster in einer baumartigen Struktur. Neue Cluster werden unter Verwendung von zuvor gebildeten Clustern gebildet.
Zwei gängige Algorithmen sind CURE und BIRCH.

Die gitterbasierte Methode formuliert die Daten in eine endliche Anzahl von Zellen, die eine gitterartige Struktur bilden.
Zwei gängige Algorithmen sind CLIQUE und STING

Die Partitionierungsmethode partitioniert die Objekte in k Cluster und jede Partition bildet einen Cluster.
Ein gängiger Algorithmus ist CLARANS.


Korrelationskoeffizient

Der Korrelationskoeffizient (r) beschreibt die Stärke und Richtung einer linearen Beziehung und x/y-Variablen in einem Streudiagramm.

Der Wert von r liegt immer zwischen -1 und +1:

-1.00Perfekte AbfahrtNegative lineare Beziehung.
-0,70Starke AbfahrtNegative lineare Beziehung.
-0,50Moderat bergabNegative lineare Beziehung.
-0,30Schwach bergabNegative lineare Beziehung.
0Keine lineare Beziehung.
+0.30Schwach bergaufPositive lineare Beziehung.
+0,50Moderat bergaufPositive lineare Beziehung.
+0,70Stark bergaufPositive lineare Beziehung.
+1.00Perfekt bergaufPositive lineare Beziehung.

Perfekt bergauf +1.00 :

Perfekte Abfahrt -1.00 :

'

Stark bergauf +0,61 :

Keine Beziehung :