Menu
numiqo
Statistik leichtgemacht

Statistik leichtgemacht

5. überarbeitete Auflage (Juli 2025) - Viele anschauliche Beispiele - nur 8,99 €

Leseprobe

k-Means-Clusteranalyse

Autor: Dr. Mathias Jesussek
Aktualisiert:

Die k-Means-Clusteranalyse ist eine der einfachsten und gängigsten Verfahren zur Clusteranalyse. Damit stellt das k-Means-Verfahren eines der am weitesten verbreiteten Verfahren dar. Es handelt sich dabei um ein partitionierendes Verfahren, das besonders für große Datenmengen geeignet ist.

Das k-Means-Verfahren zielt darauf ab, die Datenpunkte so auf die k Cluster zu verteilen, dass die Summe der Entfernungen von jedem Punkt zum jeweiligen Cluster-Zentroid minimiert wird.

k-Means-Verfahren

Vereinfacht ausgedrückt gruppiert die k-Means-Clusteranalyse ähnliche Datenpunkte und ermöglicht so, zugrunde liegende Muster zu erkennen. Das k-Means-Verfahren bzw. der k-Means Algorithmus funktionieren nun folgendermaßen:

1) Anzahl der Cluster definieren

Um die Gruppen bzw. Cluster zu finden, muss zunächst die Anzahl der Cluster definiert werden. Die Anzahl der Cluster ist das "k" in k-Means. In diesem Beispiel wurde k gleich 3 gewählt.

2) Cluster-Mittelpunkte zufällig festlegen

Im zweiten Schritt werden die initialen Cluster-Zentroiden festgelegt. Dies geschieht in der Regel zufällig. Wir haben 3 Cluster ausgewählt, daher werden drei Zentroiden zufällig positioniert. Jedes der Zentroiden repräsentiert nun ein Cluster.

k-Means-Clusteranalyse

3) Punkte den Clustern zuordnen

Nun wird die Distanz vom ersten Punkt zu jedem der Cluster-Zentroiden gemessen. Anschließend wird der Punkt dann dem jeweiligen Cluster zugeordnet, das am nächsten ist. Dies wird nun für alle weiteren Punkte wiederholt. Anschließend sind dann alle Punkte initial einem Cluster zugeordnet.

4) Mittelwert von jedem Cluster berechnen

Im vierten Schritt wird von jedem Cluster der Mittelwert berechnet. Diese Mittelwerte sind die neuen Zentroiden der Cluster. Die Cluster-Zentroiden werden also in die Clustermittelpunkte verlegt.

5) Punkte den neuen Clustern zuordnen

Da nun die Zentroiden an einem anderen Punkt liegen können, wird genauso wie in Punkt 3) wieder jedem Punkt der Cluster zugeordnet, der ihm am nächsten ist.

Schritt 4) und 5) wiederholen

Nun werden Schritt 4) und 5) so lange wiederholt, bis sich die Clusteraufteilung nicht mehr ändert. Wenn sich die Cluster in einer Iteration nicht mehr verändern, ist das Verfahren zu Ende.

Der k-Means-Algorithmus setzt sich dabei aus folgenden, wiederholt durchzuführenden Schritten zusammen:

k-Means

In diesem Verfahren liegt also eine Repräsentation der k-Cluster durch ihre Schwerpunkte vor, wodurch das Verfahren auch seinen Namen erhalten hat: k-Means-Methode. Dieses nicht hierarchische Verfahren ermöglicht es, im Unterschied zu hierarchischen Verfahren, dass sich die Zuordnungen der Objekte zu den Clustern im Laufe des Prozesses ändern können. Die Clusterzuordnungen sind also nicht endgültig.

Ein Nachteil des Verfahrens ist darin begründet, dass die Clusterlösung von der Reihenfolge der Objekte in der Startpartition (erste Clusterlösung) abhängt. Es ist daher ratsam, mit unterschiedlichen Startpartitionen zu arbeiten, bei denen sich die Reihenfolgen der Cluster und der Objekte in den Clustern unterscheiden. Jene Lösung, die durch unterschiedliche Startpartitionen am häufigsten bestätigt wird, sollte schließlich gewählt werden.

DATAtab berechnet daher 10-mal die Clusteranalyse mit jeweils zufällig bestimmten Startpunkten und wählt aus diesen 10 Clusteranalysen die beste aus. Diese wird dann den Benutzerinnen und Benutzern angezeigt. Diese beste Lösung ist dadurch definiert, dass sie die kleinste Summe der Abstände zwischen den Punkten und dem jeweiligen Cluster aufweist.

Optimale Clusteranzahl

Die Zahl der Cluster muss beim k-Means-Verfahren vor Beginn festgelegt werden und wird daher nicht durch das Cluster-Verfahren bestimmt. Aber was ist nun die optimale Anzahl an Clustern beim k-Means-Verfahren? Hierfür gibt es mit der Ellenbogen-Methode einen gängigen Weg, um die geeignete Anzahl der Cluster zu bestimmen.

Die Ellenbogen-Methode (Elbow Method)

Mit jedem neuen Cluster wird die Gesamtvariation innerhalb der Cluster kleiner und kleiner. Im Extremfall, wenn es gleich viele Cluster wie Punkte gibt, ist das Ergebnis 0. In den meisten Fällen wird die Verkleinerung der Gesamtvariation ab einem bestimmten Punkt kleiner. Dieser Punkt wird dann als optimale Clusteranzahl verwendet.


Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 378 Seiten
  • 5. überarbeitete Auflage (Juli 2025)
  • Nur 8,99 €
Leseprobe
numiqo

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 61 Seiten
  • 3. überarbeitete Auflage (April 2024)
  • Nur 3,99 €
Leseprobe
numiqo

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

numiqo
Leseprobe

numiqo zitieren: numiqo Team (2026). numiqo: Online Statistics Calculator. numiqo e.U. Graz, Austria. URL https://numiqo.de

Kontakt & Support Coaching FAQ & About Us Statistik Software Minitab Alternative Minitab in Excel konvertieren SPSS in Excel konvertieren SPSS Alternative DATAtab wird zu numiqo AGB Impressum & Datenschutz