Statistik leichtgemacht
5. überarbeitete Auflage (Juli 2025) - Viele anschauliche Beispiele - nur 8,99 €
k-Means-Clusteranalyse
Autor: Dr. Mathias Jesussek
Aktualisiert:
Die k-Means-Clusteranalyse ist eine der einfachsten und gängigsten Verfahren zur Clusteranalyse. Damit stellt das k-Means-Verfahren eines der am weitesten verbreiteten Verfahren dar. Es handelt sich dabei um ein partitionierendes Verfahren, das besonders für große Datenmengen geeignet ist.
Das k-Means-Verfahren zielt darauf ab, die Datenpunkte so auf die k Cluster zu verteilen, dass die Summe der Entfernungen von jedem Punkt zum jeweiligen Cluster-Zentroid minimiert wird.
k-Means-Verfahren
Vereinfacht ausgedrückt gruppiert die k-Means-Clusteranalyse ähnliche Datenpunkte und ermöglicht so, zugrunde liegende Muster zu erkennen. Das k-Means-Verfahren bzw. der k-Means Algorithmus funktionieren nun folgendermaßen:
1) Anzahl der Cluster definieren
Um die Gruppen bzw. Cluster zu finden, muss zunächst die Anzahl der Cluster definiert werden. Die Anzahl der Cluster ist das "k" in k-Means. In diesem Beispiel wurde k gleich 3 gewählt.
2) Cluster-Mittelpunkte zufällig festlegen
Im zweiten Schritt werden die initialen Cluster-Zentroiden festgelegt. Dies geschieht in der Regel zufällig. Wir haben 3 Cluster ausgewählt, daher werden drei Zentroiden zufällig positioniert. Jedes der Zentroiden repräsentiert nun ein Cluster.
3) Punkte den Clustern zuordnen
Nun wird die Distanz vom ersten Punkt zu jedem der Cluster-Zentroiden gemessen. Anschließend wird der Punkt dann dem jeweiligen Cluster zugeordnet, das am nächsten ist. Dies wird nun für alle weiteren Punkte wiederholt. Anschließend sind dann alle Punkte initial einem Cluster zugeordnet.
4) Mittelwert von jedem Cluster berechnen
Im vierten Schritt wird von jedem Cluster der Mittelwert berechnet. Diese Mittelwerte sind die neuen Zentroiden der Cluster. Die Cluster-Zentroiden werden also in die Clustermittelpunkte verlegt.
5) Punkte den neuen Clustern zuordnen
Da nun die Zentroiden an einem anderen Punkt liegen können, wird genauso wie in Punkt 3) wieder jedem Punkt der Cluster zugeordnet, der ihm am nächsten ist.
Schritt 4) und 5) wiederholen
Nun werden Schritt 4) und 5) so lange wiederholt, bis sich die Clusteraufteilung nicht mehr ändert. Wenn sich die Cluster in einer Iteration nicht mehr verändern, ist das Verfahren zu Ende.
Der k-Means-Algorithmus setzt sich dabei aus folgenden, wiederholt durchzuführenden Schritten zusammen:
In diesem Verfahren liegt also eine Repräsentation der k-Cluster durch ihre Schwerpunkte vor, wodurch das Verfahren auch seinen Namen erhalten hat: k-Means-Methode. Dieses nicht hierarchische Verfahren ermöglicht es, im Unterschied zu hierarchischen Verfahren, dass sich die Zuordnungen der Objekte zu den Clustern im Laufe des Prozesses ändern können. Die Clusterzuordnungen sind also nicht endgültig.
Ein Nachteil des Verfahrens ist darin begründet, dass die Clusterlösung von der Reihenfolge der Objekte in der Startpartition (erste Clusterlösung) abhängt. Es ist daher ratsam, mit unterschiedlichen Startpartitionen zu arbeiten, bei denen sich die Reihenfolgen der Cluster und der Objekte in den Clustern unterscheiden. Jene Lösung, die durch unterschiedliche Startpartitionen am häufigsten bestätigt wird, sollte schließlich gewählt werden.
DATAtab berechnet daher 10-mal die Clusteranalyse mit jeweils zufällig bestimmten Startpunkten und wählt aus diesen 10 Clusteranalysen die beste aus. Diese wird dann den Benutzerinnen und Benutzern angezeigt. Diese beste Lösung ist dadurch definiert, dass sie die kleinste Summe der Abstände zwischen den Punkten und dem jeweiligen Cluster aufweist.
Optimale Clusteranzahl
Die Zahl der Cluster muss beim k-Means-Verfahren vor Beginn festgelegt werden und wird daher nicht durch das Cluster-Verfahren bestimmt. Aber was ist nun die optimale Anzahl an Clustern beim k-Means-Verfahren? Hierfür gibt es mit der Ellenbogen-Methode einen gängigen Weg, um die geeignete Anzahl der Cluster zu bestimmen.
Die Ellenbogen-Methode (Elbow Method)
Mit jedem neuen Cluster wird die Gesamtvariation innerhalb der Cluster kleiner und kleiner. Im Extremfall, wenn es gleich viele Cluster wie Punkte gibt, ist das Ergebnis 0. In den meisten Fällen wird die Verkleinerung der Gesamtvariation ab einem bestimmten Punkt kleiner. Dieser Punkt wird dann als optimale Clusteranzahl verwendet.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 378 Seiten
- 5. überarbeitete Auflage (Juli 2025)
- Nur 8,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.