Operationalisierung von Fairness in der Technologie-gestützten Personalauswahl aus der Perspektive der Technologie-Kundschaft:
Ein Rückblick auf den zweiten Round Table am 05.06.2023
Das Round-Table-Gespräch zum Thema "Operationalisierung von Fairness in der Technologie-gestützten Personalauswahl" brachte Expert*innen aus der Rekrutierung, Forschung und Beratung zusammen, die allesamt über umfangreiche Kenntnisse und Erfahrungen in Personalprozessen, insbesondere in der Personalauswahl, verfügen.
Die Teilnehmenden wurden in verschiedene Rollen und Szenarien versetzt, um gemeinsam zentrale Themen zu diskutieren, wie beispielsweise die Möglichkeiten zur Messung der gruppenbezogenen und individuellen Fairness in Auswahl- und Einstellungsverfahren. Ausgangspunkt war eine fiktive Ausschreibung für eine Stelle, auf die in der Regel mehrere hundert Bewerbungen eingehen. Dabei wurde ein Auswahlprozess simuliert, der durch zwei verschiedene (KI)-Technologien unterstützt wurde. Die erste eingesetzte Technologie sichtet alle eingegangenen Bewerbungen, trifft anhand vordefinierter Kriterien eine engere Auswahl und versendet automatisch die Absagen und Einladungen zu einem Telefoninterview. Die zweite eingesetzte Technologie erstellt auf Basis der Telefoninterviews automatisch ein Persönlichkeitsprofil der Bewerber*innen, ordnet diese in einer Rangliste an und schlägt die bestplatzierten Kandidat*innen für den nächsten Auswahlschritt vor. Im Laufe der Diskussion wurden fiktive Zwischen-Ergebnisse des Auswahl-Trichters betrachtet sowie mehrere fiktive Anschreiben angeschaut, anhand derer der Versuch unternommen werden sollte, die Personen selbst zu “ranken”, um sich schlussendlich die entsprechenden Herausforderungen an die Sicherstellung individueller Fairness zu verdeutlichen.
Im Zuge des Round Tables stellte sich zunächst die Frage, inwieweit nicht-technisch-affine Anwender*innen entsprechenden Technologien vertrauen können und ob diese den unternehmensspezifischen Anforderungen gerecht werden können. Es wurde diskutiert, wann der Einsatz von KI-Technologie in der Personalauswahl tatsächlich sinnvoll ist und ob es spezifische Schritte im Auswahlprozess oder gar bestimmte Arten von Positionen gibt, bei denen der Einsatz der Technologie nicht vorteilhaft oder möglicherweise sogar nachteilig sein könnte. Interessant war hierbei die Tatsache, dass einige der Teilnehmenden die fiktive (aber mit realen Angeboten auf dem Markt vergleichbare) Technologie, welche basierend auf Audio-Interviews charakterliche Eigenschaften der Person vorherzusagen versucht, nur für Stellen, bei welchen viel mit Menschen kommuniziert werden muss, als sinnvoll betrachteten. Wir interpretieren die Einschätzung so, dass der Anspruch der Technologie, für beliebige Individuen aus der Sprache den Charakter von Bewerber*innen abzuleiten, von den Teilnehmenden nicht als plausibel genug gesehen wurde. Die Diskussion zeigte insgesamt, dass keine Einigkeit besteht dahingehend, welchen Zweck genau KI-Technologien in der Personalauswahl erfüllen sollten und wie genau sie die bisherigen Prozesse unterstützen können.
Es tauchten einige Bedenken hinsichtlich der Trainingsdaten für Technologien, welche Telefoninterviews psychologisch auswerten, auf: Aus welchen Daten haben die zugrundeliegenden Modelle gelernt, wo kommen diese Daten her und repräsentieren sie auch die Vielfalt der potenziellen Bewerber*innen? Um eine möglichst große Vielfalt in einem bestimmten Kontext abzudecken, wurde vorgeschlagen, alle vergleichbaren Organisationen einzubeziehen, um eine Grundgesamtheit zu bilden. Dabei stellte sich die Frage nach den schwer abschätzbaren Verzerrungen, die auftreten, wenn nicht alle relevanten Akteur*innen beteiligt sind. Über die Trainingsdaten hinaus waren Aspekte wie Transparenz und Kontrolle der in die Technologie eingebauten Kriterien sowie die algorithmische Bewertung von versteckten Sprachmerkmalen, -Kenntnissen oder -Akzenten von Interesse. Auch die mögliche Rolle des Interviewenden bei der Auswertung durch diese Art von Technologien warf Fragen auf. Werden die Bewerbenden, und damit auch die Ergebnisse der algorithmischen Auswertung eines Telefoninterviews, davon beeinflusst, wer das Interview führt, ob es immer dieselbe Person ist und ob diese vielleicht selbst mit einem Akzent spricht?
Bei der Messung der Fairness einer Technologie stellt sich zunächst die Frage, ob die Auswahlentscheidung fair gegenüber einer Gruppe oder gegenüber einem Individuum sein soll. Für gruppenbezogene Fairness sei es von großer Bedeutung, anfangs zu definieren, wie sich Gruppen zusammensetzen und welche persönlichen oder geschützten Merkmale in die Analyse einbezogen werden sollten. Wenn Unterschiede zwischen den Gruppen festgestellt werden, sei es durch statistisch signifikante Abweichungen in den Anteilen zwischen den Gruppen oder durch das Nichterfüllen bestimmter Schwellenwerte wie beispielsweise der 4/5-Regel in der amerikanischen Gesetzgebung, bleibt für die Teilnehmenden die Frage offen, ob diese Unterschiede ausschließlich auf geschützte Merkmale zurückzuführen sind oder ob die betreffende Person tatsächlich nicht geeignet war. Diese Argumentation adressiert gerade die Unterschiede zwischen Konzepten wie demographische Parität und bedingte demographische Parität. Das Fundament für Auswertungen basierend auf Eignung stellen die Stellenausschreibung bzw. die Anforderungen an die jeweilige Stelle dar: nur wenn diese konkret und messbar formuliert sind und mit unternehmensspezifischen Diversity-Zielen und -Strategien übereinstimmen sowie für die betreffende Position oder Tätigkeit realistisch sind, könne es möglich sein, Technologien hinsichtlich gruppenbezogener Fairness hin zu evaluieren. Insgesamt wurden die Standardisierung von Auswahlverfahren sowie die kontinuierliche Schulung von Personalverantwortlichen mit dem Ziel, menschliche Voreingenommenheit im Prozess zu minimieren, als Bedingungen für eine faire Personalauswahl herausgestellt.
Als ein weiterer pragmatischer Weg, der genannt wurde, war das Ergebnis bzw. die Empfehlung der Technologie mit der menschlichen Bewertung zu vergleichen und bei Abweichungen nach möglichen Fehlerquellen zu suchen, sowohl bei Menschen als auch bei der Technologie. Wenn möglich auch stichprobenartig die menschliche Bewertung durch zwei unterschiedlich besetzte Auswahlkommissionen gestalten, die Resultate vergleichen und prüfen, wo Unterschiede auftreten. Allerdings bedeute dies nicht automatisch, dass es sich um eine diskriminierungsfreie Entscheidung handle, wenn keine Unstimmigkeiten aufkommen.
Die zunehmende gesellschaftliche und rechtliche Forderung nach Transparenz in Bezug auf den Einsatz von Technologien bei der Personalauswahl stellt Technologie-entwickelnde Unternehmen vor die Aufgabe, ihre Verfahren offenzulegen. Dies könne für Bewerber*innen vorteilhaft sein, da sie beispielsweise beim Unternehmen gezielt nachfragen könnten, welche Kriterien genau durch die eingesetzte Technologie bewertet und wie diese gewichtet werden. Dies würde Bewerbenden zudem die Möglichkeit bieten, die eigenen Bewerbungsunterlagen entsprechend anzupassen und die eigenen Chancen somit zu erhöhen. Dazu gehört nicht nur die Nutzung bestimmter Schlüsselwörter, sondern auch die passende Reaktion auf eventuelle Lücken im Lebenslauf, einschließlich solcher, die beispielsweise durch Elternzeit oder Care- und Pflegearbeit entstanden sind. Darüber hinaus könnten die konkreten Gründe im Falle einer Ablehnung erfragt werden, so dass insgesamt ein höheres Level an empfundener Sicherheit hinsichtlich der Fairness des Auswahlverfahrens zu erwarten wäre. Jedoch stellt sich dann die Frage, wie aussagekräftig Anschreiben und Lebensläufe sind und wie die Auswahlprozesse aussehen, wenn Bewerbungen perfekt auf die Stellenausschreibung zugeschnitten sind und sich zudem noch ähnlich sehen, da sie auch mit frei verfügbaren Technologien zur Textoptimierung und -generierung wie ChatGPT verfasst werden können. Was bedeutet dies für zukünftige algorithmische Entscheidungen, wenn sich Technologien kontinuierlich ändern und Informationen aus diesen neuen Unterlagen für ihr Training verwendet werden?
Bei unserer Diskussion stellte sich aber auch die Frage, ob diese Art von “Transparenz” auch negative Auswirkungen auf geschützte (marginalisierte) Zielgruppen haben könnte. Ist es möglich, dass gerade die Gruppen, deren Repräsentation teilweise auch durch Quoten erhöht werden sollen, wie beispielsweise Frauen, die zudem genauer auf die Ausschreibung und Passung achten, durch das Wissen um den Einsatz der Technologie bei der Bewertung noch stärker abgeschreckt werden und sich noch weniger bewerben?
Es gab unterschiedliche Ansichten aus der Praxis, abgesehen von den rechtlichen Herausforderungen, bzgl. der Erhebung bestimmter geschützter Merkmale wie Geschlecht oder Alter. Ein Ansatz bestünde darin, solche Merkmale nur als “nice to know” zu betrachten und sie bei der Auswahlentscheidung nicht zu berücksichtigen. Eine andere Sichtweise war, dass Geschlecht und Alter zwar keine Rolle bei der Auswahlentscheidung spielen sollten, ihre Erhebung aber ebenso wie die zahlreicher anderer Daten notwendig sei, um mögliche Verzerrungen im Verfahren zu erkennen, was auch mit der Unternehmensphilosophie oder -strategie zum Abbau von Unterrepräsentation und mit der Anwendung positiver Maßnahmen zusammenhinge.
Zur Beschaffung der erforderlichen Daten wird aus praktischer Sicht vorgeschlagen, die Abfrage dieser Informationen freiwillig und anonym zu gestalten. Diese Informationen sollten aus dem eigentlichen Auswahlverfahren herausgenommen werden und erst am Ende zur Überprüfung der Auswahlentscheidung verwendet werden, um diese auf verschiedenen Ebenen kontrollieren zu können. Denkbar wäre auch, datenschutzgerechte Wege zu finden, um Daten zusammenzuführen, die bereits bei Organisationen oder Behörden vorhanden sind, aber nicht für diese Zwecke verwendet werden.