Wie Sie die hierarchische Clusteranalyse nutzen können, um das Maximum aus Ihren Datensätzen herauszuholen
Wer mit großen Datenmengen arbeitet und die darin oftmals verborgen liegenden Informationen herausarbeiten möchte, braucht entsprechende Verfahren. Eines der am häufigsten genutzten Verfahren im Bereich des Data Mining ist die Clusteranalyse.
Ziel der Clusteranalyse ist es, die Beobachtungen beziehungsweise die einzelnen Datenpunkte in homogene Gruppen einzuteilen. Alle Mitglieder einer Gruppe (also eines Clusters) sollten sich hinsichtlich der gewählten, relevanten Merkmale möglichst ähnlich sein – die verschiedenen Cluster sollten sich deutlich voneinander unterscheiden.
Die hierarchische Clusteranalyse steht für einen speziellen Ansatz: hierbei werden die verschiedenen Cluster in immer größere Gruppen zusammengefasst, sodass ein hierarchischer Aufbau von sehr kleinen bis sehr großen Clustern entsteht. Vergleichbare Ansätze sind beispielsweise auch in der Biologie zu finden, wenn Tiere klassifiziert werden. Auch hier können vom einzelnen Tier ausgehend immer größere Gruppen mit bestimmten gemeinsamen Merkmalen gebildet werden. Und genauso lässt sich auch mit teils abstrakten Daten arbeiten. Das Clustern findet dabei in drei Schritten statt:
Die hierarchische Clusteranalyse selbst kann wiederum auf zwei verschiedene Arten durchgeführt werden. Sie unterscheiden sich hinsichtlich der eingesetzten Algorithmen, die zur Einteilung der Daten verwendet werden.
Das agglomerative Clusterverfahren ist jedoch jenes, das in der Praxis in den allermeisten Fällen genutzt wird.
Die Struktur, die durch das hierarchische Clustern entsteht, lässt sich in einem speziellen Baumdiagramm abbilden: das sogenannte Dendrogramm. Die Wurzel des Baumdiagramms repräsentiert das Megacluster, das alle Objekte beinhaltet, jede Abzweigung steht für eine weitere Aufteilung. Mithilfe des Dendrogramms lässt sich auch eine bestimmte Clusterzahl darstellen. Dafür muss das Diagramm nur an der entsprechenden Knotenstelle „durchgeschnitten“ werden.
Damit Datensätze mithilfe von hierarchischen Verfahren ausgewertet und verarbeitet werden können, müssen bestimmte Voraussetzungen erfüllt sein. Nur dann stehen am Ende valide Ergebnisse, die weitere Schritte in der Analyse ermöglichen.
Um eine aussagekräftige hierarchische Clusteranalyse durchführen zu können, sollten die vorliegenden Daten so klar strukturiert wie möglich sein – und im Idealfall werden alle Variablen vor der Analyse standardisiert. So wird vermieden, das Daten aus unterschiedlichen Dimensionen zu einer Verzerrung in der Analyse führen. Das kann beispielsweise geschehen, wenn durch eine fehlende Standardisierung eigentlich gleichwertige Merkmale plötzlich eine unterschiedliche Gewichtung bekommen.
Die standardisierten Variablen gehen Hand in Hand mit einer weiteren Voraussetzung, die für die hierarchische Clusteranalyse erfüllt sein muss. Denn die Daten können mithilfe des Algorithmus nur dann eingeteilt und klassifiziert werden, wenn die entsprechenden Merkmale mathematisch quantifizierbar sind.
Das bedeutet in der Praxis: Merkmale, die nicht konkret messbar sind und mit Maßen wie dem Distanzmaß oder dem Ähnlichkeitsmaß beschrieben werden können, eignen sich nicht zur Clustererstellung. Dieser Fakt sollte unbedingt im Hinterkopf behalten werden, wenn beispielsweise eine Umfrage erstellt wird, auf deren Basis später die Clusteranalyse erfolgen soll. Offene Fragen mit Freitextfeldern oder komplexen Antwortmöglichkeiten erschweren die Analyse unnötig, da die Informationen entweder erst in quantifizierbare Daten umgewandelt werden müssen oder gar nicht genutzt werden können.
Auch sollte möglichst vermieden werden, dass die einzelnen Variablen für die Clusterbildung miteinander korrelieren. Eine Korrelation führt ebenfalls zu Verzerrungen in der Analyse und kann die Ergebnisse verfälschen oder sogar unbrauchbar machen. Je weniger die einzelnen Merkmale voneinander abhängig sind, desto besser sind sie für die hierarchische Clusteranalyse geeignet.
Die hierarchische Clusterlösung kann in einer Vielzahl von Bereichen eingesetzt werden. Neben der Nutzung in der klassischen Psychologie oder Statistik sind beispielsweise auch Datenanalysen zu Marketingzwecken immer wichtiger, um für Unternehmen die richtigen Entscheidungen treffen zu können. Haben Sie beispielsweise durch Trackingtools auf Ihrer Website oder Ihrem Webshop Daten gesammelt oder mithilfe einer Marktforschungsumfrage relevante Informationen gesammelt, können Sie diese durch eine Clusteranalyse auswerten.
Sie haben durch die Analyse Ihrer Website erfahren, welche Kunden sich welche Produkte anschauen und wer anschließend welche Kaufentscheidung trifft. Um nun beispielsweise Ihren Webshop zu optimieren, Absprungraten zu minimieren und einen höheren Umsatz zu erzielen, können Sie diese Daten mithilfe einer hierarchischen Clusteranalyse auswerten.
Das kleinste hierarchische Cluster ist dabei jeder einzelne Besucher oder Käufer, das größte Cluster die Summe aller Besucher oder Käufer. Merkmale, die Sie nun untersuchen können, sind zum Beispiel:
So können Sie sich ein genaues Bild machen und Ihren Webauftritt entsprechend optimieren.
Sie planen, ein neues Produkt auf den Markt zu bringen und lassen dafür verschiedene Varianten von einer ausgewählten Fokusgruppe oder einem zufällig gewählten Publikum testen und mithilfe eines Fragebogens bewerten. Die Clusteranalyse kann Ihnen nun dabei helfen zu verstehen, welche Produkte aufgrund welcher Merkmale besonders gut ankommen und wo es noch Verbesserungspotenzial gibt.
Auch wenn die hierarchische Clusteranalyse eine eher etwas aufwändige Clusterlösung im Bereich der Datenauswertung ist und etwas statistisches Grundwissen erfordert, sind die Erkenntnisse, die Sie aus ihr ziehen, den Aufwand in den meisten Fällen wert.