KI beweist sich bei der Bewerberauswahl

Artikel anhören
Artikel zusammenfassen
Teilen auf LinkedIn
Teilen per Mail
URL kopieren
Drucken

Ein internationales Team von Forschenden hat in Kooperation mit einer der „weltweit führenden Personalvermittlungsplattformen”, mehr als 3.000 reale Bewerbungen ausgewertet. Die Ergebnisse zeigen, dass menschliche Recruiter mehrere kognitive Biases zeigen, während diese Muster bei der KI nicht oder weniger auftreten. Insgesamt konnte die KI gegenüber erfahrenen Recruitern damit den Angaben zufolge langfristig besser einschätzen, wer für die ausgeschriebenen Stellen erfolgsversprechend ist.

Die Studie war so aufgebaut, dass insgesamt 3.296 echte Bewerbungen in den USA auf drei Tech-Job-Katgorien ausgewertet wurden: Programmierer, Web-Designer und Content Creator. Konkret ging es um asynchrone Interviews, die anschließend entweder von einem KI-System oder einem professionellen Recruiter ausgewertet wurden. Zwölf Monate nach der Auswertung analysierten die Studienmacherinnen und –macher dann die Linkedin-Daten der Bewerbenden. Dabei wurde geschaut, in welchen Jobs sich die ehemaligen Kandidaten jetzt befinden und ob sie gegebenenfalls auch bereits in höhere Positionen befördert wurden.

KI-Scores sagen späteren Berufserfolg besser voraus 

Die Ergebnisse der Untersuchung zeigen laut dem Autoren-Quartett um Andreas Leibbrandt deutlich, dass die KI in diesen Fällen bessere Prognosen lieferte als der Mensch. 

Insbesondere bei der Einschätzung, ob die Bewerber in Senior-Positionen angestellt sein würden, ist der KI-Score deutlich aussagekräftiger: Pro Standardabweichung höherem KI-Score steigt die Wahrscheinlichkeit einer Senior-Position um 6,1 Prozentpunkte. Die Personaler dagegen trafen mit -1,2 Prozentpunkten keine signifikanten Vorhersagen. Aber auch bei den Fragen, ob die Kandidaten im Verlauf der zwölf Monaten einen Positionswechsel geschafft haben werden, oder nach vorheriger Arbeitslosigkeit nun in einem Beschäftigungsverhältnis stehen, schnitt die KI mindestens doppelt so gut ab wie ihr menschliches Pendant.  

Sucht man nach möglichen Gründen für diesen Befund, verweisen die Forschenden unter anderem darauf, dass die menschlichen Bewertungen von verschiedenen Faktoren beeinflusst werden. Darunter fallen einerseits der so genannte Time-of-day-Effekt, welcher nahelegt, dass die Vorhersagekraft der Recruiter im Tagesverlauf schwankt und andererseits ein Anchoring-Effekt. Demnach fixieren sich die Recruiter zu stark auf die Antwort der ersten Interview-Frage, wohingegen sie die Informationen aus den weiteren Fragen kaum miteinbeziehen. Hinzukommt, dass sich viele Recruiterinnen und Recruiter bei der Vergabe des Scores offenbar gerne im Mittelfeld bewegten. Daraus lassen sich dann allerdings nur schwierig tatsächliche Gewinner- oder Verlierer-Kandidaten ermitteln.

Algorithmus bewertet unterrepräsentierte Gruppen höher 

Diese drei Effekte betreffen die KI dagegen den Angaben zufolge nicht. Aber auch stereotype Bevorzugung oder Benachteiligung durch einen Algorithmus geschahen zumindest in dieser Untersuchung deutlich seltener. So zeigen die erhobenen Daten, dass die KI, im Vergleich zu Recruiting-Fachleuten, Frauen und unterrepräsentierten Minderheiten höhere Scores vergab. Die HR-Fachleute dagegen wiesen tendenziell Männern, Weißen und Personen aus Asien höhere Scores zu.

So enthielt die Bestenliste der KI nachher 10 Prozent mehr Frauen und 7 Prozent mehr unterrepräsentierte Minderheiten, womit im vorliegenden Fall vor allem US-Bürger afrikanischer oder latino-hispanischer Herkunft gemeint waren.

Auch deutsche Experten sehen hier Potenzial 

Dirk Sliwka, Leiter des Seminars für Allgemeine Betriebswirtschaftslehre und Personalwirtschaftslehre an der Universität zu Köln, hat sich damit beschäftigt, wie KI in Leistungsbewertungen eingebunden werden kann. 

Dazu hat er selbst eine Studie geleitet, deren Ergebnisse er der Personalwirtschaft in einem Interview erläutert hat. Obgleich er noch Schwachstellen bei der Leistungsbewertung durch Large Language Models (LLM) sieht, da die umfassten Aufgaben oft zu komplex seien, steht er der oben genannten US-Untersuchung sehr positiv gegenüber: „Ich glaube, dass gerade bei Potentialeinschätzungen für offene Stellen gut trainierte Algorithmen schnell besser sein können als Menschen“, sagt er. 

Ein möglicher Grund laut Sliwka ist, dass LLM „eben viel besser in der Informationsverarbeitung von Nuancen sind als Menschen, die kognitive Grenzen haben und Stereotypen unterliegen“. Diese Erkenntnis teilt die US-Studie mit der von Sliwka. Denn auch die Ergebnisse hierzulande zeigten, dass die LLM im Vergleich besser darin waren, die echte Leistung vorherzusagen als menschliche Beurteiler.

Sliwka sieht in der neuen Studie insbesondere Hinweise für die Schwachpunkte und Grenzen menschlicher Beurteiler – etwa, wenn diese Minderheiten (unbewusst) diskriminieren oder Leute vormittags besser bewerten als nachmittags. Das passiere dem von den Forschern genutzten Algorithmus nicht.

„Wir Menschen sind gar nicht so gut, Potentiale anderer Menschen zu beurteilen wie wir das glauben“, nimmt Sliwka aus den beiden Studien mit. Menschen hätten eben häufig viele Stereotype im Kopf, ohne sich deren bewusst zu sein und würden manche Details übersehen. Algorithmen, die auf guten Trainingsdaten aufbauen, könnten da sehr schnell sehr viel besser sein. Das gelte auch für Bewerbungsprozesse in Deutschland.

KI als strukturierte Vorbereitung für Entscheidungen

Voraussetzung dafür sei jedoch ein Algorithmus, der mit guten Trainingsdaten arbeite. „Bei guten Trainingsdaten spricht sehr viel dafür, dass es irgendwann sogar ein ethisches Gebot sein wird, dass wir zumindest bei der Vorauswahl von Bewerbern Algorithmen einsetzen sollten“, sagt Sliwka. So könne man zukünftig Benachteiligungen reduzieren und besser vorhersagen, wer wirklich später einen guten Job machen wird. 

Auch Cathrin Christ, Director of Technology and Transformation bei Deloitte Consulting, sieht hier die Möglichkeit subjektive Einflüsse zu reduzieren. Da KI auf Basis definierter Kriterien bewerte, könne Sie Einschätzungen strukturierter und vergleichbarer machen. Damit sei eine Grundlage geliefert, auf der menschliche Entscheidungen getroffen werden können.

Laut Christ habe der Schwerpunkt bisher vor allem auf dem Abgleich von Lebensläufen mit den Stellenanforderungen gelegen. Künftig werde es jedoch stärker darum gehen, interaktive Formate wie Interviews, in die Bewertung durch eine KI einzubeziehen, da hier deutlich mehr Signale für die tatsächliche Eignung von Bewerbenden sichtbar würden.  

Größere Organisationen haben laut Christ bereits zunehmend klare Kriterien definiert, welche Einschätzungen strukturieren und nachvollziehbar machen. Diese könnten für eine KI aufbereitet werden, sodass diese zu einer Analyse befähigt sei. Sie solle jedoch vorwiegend als vorbereitende Instanz dienen, sodass die finale Entscheidung beim Menschen bleibt.

Asynchrone Interviews halbieren den Bewerberpool 

Das Studiendesign in der US-Analyse verwendete asynchrone Interviewformate. Dementsprechend mussten die Bewerbenden Video- oder Audioaufnahmen von sich hochladen, in denen sie die Interviewfragen beantworten. Die Studienergebnisse zeigen jedoch, dass von 2.535 Kandidaten nur 40 Prozent ihre Bewerbungen tatsächlich auch abschlossen.

Bei der Kontrollgruppe dagegen blieben 85 Prozent der Kandidaten im Prozess. Hier wurden 667 Bewerbende per Mail darüber informiert, dass sie die erste Bewerbungsrunde bestanden hätten. In der Mail befand sich ein Link, über den sie angeben sollten, ob sie weiterhin an dem Bewerbungsverfahren teilnehmen wollten.

Info

Tonia Schöler ist Volontärin bei der Personalwirtschaft.