Automatisierte Matching-Systeme entscheiden zunehmend über Jobchancen, neigen aber zu Vorurteilen. Ein aktuelles Whitepaper zeigt, wie sich Diskriminierung durch KI im Recruiting systematisch aufdecken lässt.
Was passiert, wenn künstliche Intelligenz bestimmt, wer eine Einladung zum Bewerbungsgespräch erhält – und wer aussortiert wird? Diese Frage steht im Zentrum eines Projekts, das das KI-Startup Quantpi (Eigenschreibweise: QuantPi), die Stellenbörse Stepstone sowie das TÜV AI.Lab, ein Gemeinschaftsprojekt mehrerer TÜV-Gesellschaften, jetzt vorgestellt haben.
In einem gemeinsamen Whitepaper präsentieren die Macher einen praxisnahen Prüfansatz, mit dem sich KI-gestützte Empfehlungssysteme im Recruiting auf mögliche Benachteiligungen untersuchen lassen.
„The Stepstone Group entwickelt mithilfe Künstlicher Intelligenz innovative Recruiting-Tools für den Arbeitsmarkt. Deshalb investieren wir in Forschung und Entwicklung, um gesetzliche Vorgaben in klare, praktische Prozesse und Methoden zu übersetzen, die transparente und sichere Matching-Lösungen gewährleisten“, erläutert Roberta Barone, AI Ethics & Compliance Lead bei Stepstone und eine der Köpfe hinter dem Whitepaper, die Gründe für die Beteiligung ihres Unternehmens an dem Projekt.
Der Prüfansatz im Detail
Kern des Projekts ist die Verzahnung von Recht, Technik und Statistik. Die Expertinnen und Experten des TÜV AI.Lab entwickelten einen sogenannten Assurance Case – eine strukturierte Beweisführung, die darlegt, dass ein System in der konkreten Anwendung wie beabsichtigt funktioniert. Dadurch werden abstrakte Vorgaben aus EU AI Act und Allgemeinem Gleichbehandlungsgesetz (AGG) in überprüfbare Kriterien übersetzt. Zudem wurde geprüft, ob gleich qualifizierte Profile mit unterschiedlicher Herkunft vergleichbar bewertet werden.
„Candidate-Matching-Systeme können unsere Berufschancen entscheidend beeinflussen. Niemand darf dabei wegen seiner ethnischen Herkunft benachteiligt werden“, unterstreicht Matthias König, Senior AI Solutions Architect beim TÜV AI.Lab. „Gemeinsam mit unseren Partnern haben wir gezeigt, wie sich das technisch prüfen lässt – und wie der Assurance Case die Brücke zwischen Regulierung und Praxis schlägt.“
Grenzen und Spannungsfelder
Die vorgestellte Methode ist ein Fortschritt, hat allerdings auch Schwächen, räumen die Macherinnen und Macher ein. Für valide Bias-Tests brauche es eigentlich Angaben zu sensiblen Merkmalen wie Herkunft oder Geschlecht. Solche Daten seien aus Datenschutzgründen in Trainings- und Testdatensätzen jedoch meist nicht enthalten. Stattdessen arbeiten die Prüfenden mit Ersatzinformationen, die indirekt Rückschlüsse erlauben – etwa Sprachmuster oder regionale Hinweise. Diese sogenannten Proxy-Variablen machen die Tests überhaupt erst möglich, bringen aber zusätzliche Unsicherheiten mit sich.
Rechtzeitiges Testen ist Trumpf
Für die Projektpartner ist frühes Testen, ob das Auswahlverfahren diskriminierend ist, nicht nur Pflicht, sondern Chance: Wer bereits in der Entwicklung systematisch prüfe, schaffe Transparenz und gewinne Vertrauen – bei Bewerbenden und Arbeitgebern gleichermaßen. „Wir sehen technische Tests als notwendige Grundlage, um KI vertrauenswürdig und verantwortungsvoll einsetzen zu können“, sagte Philipp Adamidis, Co-Founder und CEO von Quantpi. „Die im Projekt angewandte Methodik wird in Zukunft auch in anderen Bereichen der KI-Bewertung neue Maßstäbe setzen.“
Das Whitepaper betont, dass die Ergebnisse über den konkreten Recruiting-Fall hinausreichen: Die beschriebene Methodik könne als Vorlage für andere Hochrisiko-KI-Anwendungen dienen – etwa bei Kreditentscheidungen oder automatisierten Bewerbenden-Screenings. Zugleich betont das Whitepaper, dass es sich nicht um eine vollständige Konformitätsbewertung handele, sondern um einen praxisnahen Ausschnitt unter aktuellen regulatorischen Bedingungen.
Sicherheit als weiterer Aspekt
Dass das Thema „Bias“ im Übrigen nicht nur den Aspekt der Fairness betrifft, sondern auch die Sicherheit von KI-Systemen, hat das Bundesamt für Sicherheit herausgearbeitet und weist darauf hin, dass „Bias eine tiefgreifende Problematik für Systeme der Künstlichen Intelligenz ist, die eine Gefährdung für den sicheren Einsatz von solchen Systemen darstellen kann“, heißt es in einem Whitepaper des Bundesamtes. Das BSI fordert, dass Unternehmen während des gesamten Lebenszyklus eine KI-Verantwortung übernehmen: Bias müsse von Anfang an erkannt und reduziert werden – und zwar so, dass zentrale IT-Sicherheitsziele wie Vertraulichkeit, Integrität und Verfügbarkeit nicht gefährdet werden.
Für HR-Verantwortliche in ist diesem Zusammenhang auch der Art. 4 der EU-KI-Verordnung relevant. Dieser sieht eine – derzeit noch nicht bußgeldbewährte – Schulungspflicht von Unternehmen vor und sagt:
„Die Anbieter und Betreiber von KI-Systemen ergreifen Maßnahmen, um nach bestem Kräften sicherzustellen, dass ihr Personal und andere Personen, die in ihrem Auftrag mit dem Betrieb und der Nutzung von KI-Systemen befasst sind, über ausreichende KI-Kompetenz verfügen, wobei ihre technischen Kenntnisse, ihre Erfahrung, ihre Aus- und Weiterbildung und der Kontext, in dem die KI-Systeme eingesetzt werden sollen, sowie die Personen oder Personengruppen, bei denen die KI-Systeme eingesetzt werden sollen, berücksichtigt werden.“
Info
Der Prüfansatz in fünf Schritten:
- Klare Beweisführung aufbauen
Mit einem sogenannten Assurance Case wird Schritt für Schritt dargelegt, dass das System so funktioniert, wie es soll – und dass es dabei keine Gruppen benachteiligt. - Gesetze in Prüfziele übersetzen
Vorgaben aus dem EU AI Act und dem Allgemeinen Gleichbehandlungsgesetz (AGG) werden nicht abstrakt belassen, sondern in konkrete Fragen verwandelt: „Behandelt das System Bewerbende mit gleicher Qualifikation auch wirklich gleich?“ - Testszenarien aufsetzen
Auf der technischen Plattform von Quantpi werden verschiedene Prüfszenarien erstellt. So lässt sich systematisch überprüfen, wie das System in unterschiedlichen Situationen entscheidet. - Vergleiche durchführen.
Mit statistischen Tests wird geprüft, ob Bewerbende – etwa mit gleicher Qualifikation, aber unterschiedlicher Herkunft – die gleichen Chancen auf ein positives Matching haben. - Ergebnisse auswerten und nachjustieren
Zeigen sich Unterschiede, werden sie transparent gemacht. So können Entwicklerinnen und Entwickler gezielt nachsteuern, um das System fairer und robuster zu machen.
Drei Fragen an die Beteiligten
Ihr Whitepaper zeigt, wie Diskriminierung systematisch aufgedeckt werden kann – was hat Sie bei den Tests am meisten überrascht?
„Überraschend war, dass die Klärung rechtlicher und ethischer Fragen mindestens so anspruchsvoll war wie die technischen Tests. Das zeigt, dass die Bewertung von KI-gestützten Recruiting-Systemen komplex ist und interdisziplinäre Expertise sowie erhebliche Ressourcen erfordert. Verlässliche Plattformen verbinden daher technische Qualität mit klaren ethischen und rechtlichen Leitplanken, um diskriminierende Muster auszuschließen.“
(Roberta Barone, AI Ethics & Compliance Lead, Stepstone)
Die EU-KI-Verordnung macht strenge Vorgaben: Wo liegen die größten Hürden, diese abstrakten Regeln in konkrete, prüfbare Verfahren zu übersetzen?
„Für die Bewertung von KI-Systemen im Hinblick auf mögliche Diskriminierung fehlen bislang harmonisierte Standards und etablierte Best Practices. In vielen Fällen werden uns auch die gerade entstehenden Standards nur eine erste Indikation für die Prüfpraxis liefern – denn wir brauchen ganz konkrete, quantifizierbare Konformitätskriterien und passende Testmethoden.
Das ist komplexer als es klingt, denn die KI-Prüfung stellt uns vor zahlreiche spezifische Herausforderungen. Gerade für diese Aufgabe ist die TÜV AI.Lab GmbH gegründet worden. Noch ungeklärt ist etwa, wie sich überschneidende Rechtsrahmen zu interpretieren sind, wie sich Anforderungen, wie etwa Nichtdiskriminierung, rechtssicher zuverlässig belegen lassen, welche technischen Prüfmetriken jeweils geeignet sind und wie quantifizierte Testergebnisse regulatorisch einzuordnen sind.“
(Matthias König, Senior AI Solution Architect, TÜV AI.Lab)
Vertrauen gilt als Wettbewerbsvorteil – wie groß ist das Risiko für Unternehmen, wenn sie ihre Recruiting-KI nicht auf Bias testen?
„Unternehmen gehen erhebliche Risiken ein, wenn sie ihre Systeme nicht systematisch auf Fairness und Nichtdiskriminierung prüfen. Zum einen droht ein negativer Business Impact: Wenn die eingesetzte KI falsche Kandidatenempfehlungen ausspricht, führt das zu Fehlentscheidungen im Recruiting und kann das Kerngeschäft nachhaltig belasten.
Zum anderen entstehen regulatorische Risiken, da diskriminierende Systeme empfindliche finanzielle Folgen haben können – etwa mit Blick auf die Sanktionsmöglichkeiten nach Artikel 71 der EU-KI-Verordnung. Und schließlich besteht ein hohes Reputationsrisiko: Werden Benachteiligungen öffentlich, kann dies das Arbeitgeberimage dauerhaft schädigen. Beispiele aus der Praxis wie der Fall Workday zeigen sehr deutlich, wie schwer sich ein solcher Vertrauensverlust wieder ausgleichen lässt.“
(Philipp Adamidis, CEO und Mitgründer, Quantpi)
Sven Frost betreut das Thema HR-Tech, zu dem unter anderem die Bereiche Digitalisierung, HR-Software, Zeit und Zutritt, SAP und Outsourcing gehören. Zudem schreibt er über Recruiting und Employer Branding. Er verantwortet weiterhin die redaktionelle Planung verschiedener Sonderpublikationen der Personalwirtschaft.

