Rollenprofile aus Topic-Modellen

Topic-Modelle sind eine Technik aus dem maschinellen Lernen, die wir bei Data Assessment Solutions schon sehr früh eingesetzt haben. Da diese Modelle noch immer relevant sind, wollen wir heute kurz vorstellen, was sie ausmacht und wie wir sie einsetzen.

Das bekannteste Topic-Modell ist Latent Dirichlet Allocation (LDA) von David Blei, Andrew Ng und Michael Jordan aus dem Jahr 2003. Der Artikel, in dem das Modell vorgestellt wurde, wird mittlerweile mehr als 36,000-mal zitiert, was eine sehr große Anzahl für einen Informatikartikel ist.  Die Idee hinter Topic-Modellen kann man gut am Beispiel von Zeitungsartikeln erklären. Zeitungsartikel sind in der Regel Themenbereichen, wie Politik, Wirtschaft, Wissenschaft, Kultur oder Sport, zugeordnet.  Es gibt aber auch Kollektionen von Textdokumenten, für die eine solche Zuordnung nicht bekannt ist. Mit Topic-Modellen versucht man, Themen (engl. Topics) automatisch aus einer Dokumentenkollektion zu lernen.  Eine Schwierigkeit dabei ist, dass es Dokumente gibt, bei denen die Zuordnung nicht eindeutig ist. Im Falle von Zeitungsartikeln könnte das zum Beispiel ein wirtschaftspolitischer Artikel sein.  Die Zuordnung eines Artikels zu einem Thema hängt von der Häufigkeitsverteilung von Wörtern in dem Artikel ab. Ein Wirtschaftsartikel enthält viele Wörter, die man dem Bereich Wirtschaft zuordnen würde, und ein Politikartikel viele Wörter aus dem Bereich Politik. Ein wirtschaftspolitischer Artikel enthält viele Wörter aus beiden Bereichen. Ein Topic-Modell schätzt nun ein Topic einfach als eine Wahrscheinlichkeitsverteilung über den Wörtern eines Wörterbuchs. Wenn zum Beispiel die Wörter Kraft, Impuls, Masse und Gravitation große Wahrscheinlichkeiten in einem Topic haben, könnte man dieses als Physik-Topic bezeichnen. Zum einen ist es interessant, welche Topics sich aus einem Modell ergeben, zum anderen kann man Anfragen an das Modell stellen. Im Fall von Textdokumenten kann die Anfrage selbst ein Textdokument sein. Das Ergebnis sind dann Mischungskoeffizienten, die angegebenen, zu welchen Teilen das Anfragedokument zu den verschiedenen Topics gehört.

Bei Data Assessment Solutions untersuchen wir nicht Textdokumente, sondern Skill-Profile mit Hilfe von Topic-Modellen. Dabei hilft es, dass man Skill-Profile fast genauso wie Textdokumente repräsentieren kann. Eine einfache Repräsentierung von Textdokumenten sind Listen, die für jedes Wort aus einem Wörterbuch angeben, wie oft das Wort in einem Dokument auftaucht. Für Skill-Profile wird das Wörterbuch durch einen Skills-Katalog ersetzt. Das Skill-Profil eines Mitarbeiters gibt an, auf welchem Level, z.B. auf einer Skala von 1 bis 5, er oder sie die Skills aus dem Katalog besitzt. Aus den Skill-Profilen der Mitarbeiter eines Unternehmens können wir so Topics lernen, die wir in diesem Zusammenhang als Rollenprofile bezeichnen. Typische Rollenprofile in einem IT-Unternehmen, sind zum Beispiel Systemadministratoren, Webentwickler oder Datenbankspezialisten. In fast jedem Unternehmen finden sich aber auch interessante Rollenprofile, die spezifisch für das Unternehmen sind. Die geschätzten Rollenprofile erlauben einen aggregierten, systematischen Überblick über die im Unternehmen vorhandenen Erfahrungen und Fähigkeiten. Bei unseren Kunden sind Kataloge mit hunderten, bis tausenden von Skills die Regel. Ein Management-Überblick ist auf der nicht-aggregierten Ebene damit unmöglich. Mit ein paar Dutzend Topics erhält man dagegen einen guten Eindruck, wie es aussieht. Darüber hinaus werden Topic-Modelle bei der Suche nach Mitarbeitern und Fähigkeiten und beim gezielten Aufbau von Fähigkeiten im Unternehmen genutzt.