Conjoint Analysis – zehn Jahre später

Wir werden oft gefragt, warum eine Firma, die sich auf Consulting Operations Management spezialisiert hat, Data Assessment Solutions heißt. Die Antwort auf die Frage bestimmt auch heute noch die Richtung, in die wie wir bei DAS Research denken. Schon vor der Gründung von DAS war uns klar, dass viele Fragen nicht nur mit Hilfe von Daten aus passiven Quellen, d.h. Daten, die nicht explizit zur Beantwortung der Frage erhoben wurden, beantwortet werden können. Es müssen also auch Daten aktiv, in einem Data Assessment, erhoben werden. Ein für uns sehr wichtiges Beispiel sind Mitarbeiter-Skills, die wir am Anfang komplett in einem Skills-Assessment erhoben haben. Heute können wir Skills auch aus passiven Quellen, wie CVs und Projekthistorien lernen. Für eine gute Datenqualität erheben wir Skills-Daten auch immer noch aktiv, allerdings in viel kleinerem Umfang.  Ein anderes Thema, das wir schon vor zehn Jahren angegangen sind, ist die Messung von Präferenzen. Zur Erhebung und Auswertung von Präferenzdaten für unsere IT-Skills Studie 2009 haben wir Methoden zur Durchführung und Auswertung einer Verbundmessung (Conjointanalyse) entwickelt. In diesem Beitrag erklären wir, wie wir die Auswertung der Studie mit einem geometrischen Trick auf ein Standardproblem des maschinellen Lernens reduziert haben.

In einer Verbundmessung werden Objekte, die durch mehrere Attribute beschrieben sind, miteinander verglichen. In unserem Fall waren die Objekte IT-Profile aus fünf IT-Skills. Eine IT-Profil ist durch ein Kompetenzniveau, auf einer fünfstufigen Skala für jeden der fünf IT-Skills definiert. Den Teilnehmern der Studie wurden nacheinander zwölf zufällig generierte Paare von IT-Profilen gezeigt. Sie wurden gebeten, das Profil des Kandidaten auszuwählen, den sie eher einstellen würden. Aus den Paarvergleichen haben wir dann einen Teilnutzenwert für jedes Kompetenzniveau für jeden der fünf IT-Skills gelernt, insgesamt also 25 Teilnutzenwerte. Mit Hilfe der Teilnutzenwerte konnten wir unter anderem aussagen, welche Skills wichtiger und welche weniger wichtig sind und für welche Skills sich eine Verbesserung des Kompetenzniveau um einem Skalenwert am meisten auszahlt.

Die Berechnung der Teilnutzenwerte haben wir durch einen einfachen Trick auf ein binäres Klassifikationsproblem zurückgeführt. Dazu haben wir jeden Paarvergleich mit einer Hyperebene im 25-dimensionalen Raum identifiziert, d.h. wir haben den 25-dimensionalen Raum linear in zwei Hälften geteilt, den Halbraum oberhalb der Hyperebene und den Halbraum darunter. Die Antwort auf einen Paarverglich gibt an, ob der Vektor der 25 Teilnutzenwerte oberhalb oder unterhalb der Hyperebene liegt. Am Ende suchen wir einen Teilnutzenwertevektor, der im Schnitt aller der durch die Paarvergleiche gegebenen Halbräume liegt. Wenn der Schnitt leer ist suchen wir einen Teilnutzenwertevektor, der die durch die Paarvergleiche gegebenen geometrischen Bedingungen so wenig wie möglich verletzt. Wir können also zusammenfassen, die durch die Paarvergleiche gegebenen Daten wurden als Hyperebenen interpretiert, die je nach Ausgang des Vergleichs mit über (+1) oder unter (-1) gelabelt waren. Gesucht wird einen Vektor (Punkt im 25-dimensionalen Raum), der mit diesen Daten verträglich ist.

Die Situation ist erstaunlich ähnlich zu einem linearen, binären Klassifikationsproblem. Die Daten sind hier binär (-/+ 1)-gelabelte Punkte. Gesucht wird eine Hyperebene, die den Raum so teilt, dass auf jeder Seite der Ebene möglichst nur Punkte mit einem Label zu finden sind.  Die Lösung solcher Probleme ist eine Standardaufgabe im maschinellen Lernen und wird unter anderen von Support-Vektor-Maschinen (SVMs) oder durch logistische Regression gelöst. Der Unterschied zu unserem Conjointanalyse-Problem ist, dass im ersten Fall die Daten gelabelten Hyperebenen sind und einen damit verträglicher Punkt gesucht wird, wohingegen im zweiten Fall die Daten gelabelte Punkte sind und eine damit verträgliche Hyperebene gesucht wird.

In der Geometrie sind Punkte und Hyperebenen dual einander, d.h. Punkte können auch als Hyperebenen und Hyperebenen auch als Punkte interpretiert werden. Die Idee dahinter versteht man sehr einfach im zweidimensionalen Euklidischen Raum. Ein Punkt im zweidimensionalen Raum ist durch zwei Koordinaten (x- und y-Koordinate) beschrieben. Eine Hyperebene im zweidimensionalen Raum ist einfach eine Gerade, die ebenfalls durch zwei Koordinaten beschrieben wird: den y-Achsenabschnitt und die Steigung der Geraden. In einer Dualitätstheorie betrachtet man nur die Paare von Koordinaten und interpretiert sie einmal als Punkt und einmal als Hyperebene.  In der Euklidischen Geometrie gibt es allerdings Fälle, in denen die Uminterpretation nicht klappt. Leider treten diese sogenannten singulären Fälle in unserem Conjointanalyse-Problem auf. Zu einigen der gelabelten Hyperebenen gibt es keinen dualen Punkt. Erweitert man die Euklidische Geometrie durch Hinzunahme von Punkten und einer Hyperebene im Unendlichen zur projektiven Geometrie, verschwinden die singulären Fälle.  Die für uns problematischen gelabelten Hyperebene sind dual zu Punkten im Unendlichen, mit denen man in der projektiven Geometrie problemlos weiterrechnen kann.

In der Auswertung unserer Skills-Studie haben wir das Conjointanalyse Problem einfach mittels projektiver Dualität in ein lineares, binäre Klassifikationsproblem übersetzt, das wir dann mit einer Standard Support-Vektor-Maschine lösen konnten.