Recruiting im Faktencheck: Teil 1 - Ist KI effizienter in der Selektion von Bewerbungen?
Drei KI-Modelle bewerten Bewerbungen im direkten Vergleich mit echten Recruiting-Entscheidungen.
Einleitung
Die Vorauswahl von Bewerbungen ist meist sehr zeitaufwendig und fehleranfällig. Künstliche Intelligenz verspricht hier Effizienz, Präzision und möglicherweise sogar mehr Fairness. Doch wie gut schlägt sich KI in einem realistischen Praxistest – und wie konsistent arbeitet sie im Vergleich zu menschlichen Entscheidungen? Genau das wurde in einem strukturierten Experiment untersucht.
Die zentrale Forschungsfrage
Wie kann der Einsatz von KI die Effizienz und Genauigkeit in Recruiting-Prozessen steigern und dabei die Qualität der Personalauswahl verbessern?
Das Experiment sollte insbesondere die folgende Teilfrage beantworten:
Wie präzise und konsistent bewerten KI-Algorithmen die Eignung von Bewerbenden im Vergleich zu traditionellen, menschlichen Auswahlprozessen?
Drei reale Szenarien – der Rahmen des Experiments
Die Grundlage des Tests bildeten drei reale Recruiting-Fälle (Use Cases) mit vollständiger Stellenbeschreibung und klar definierten Anforderungsprofilen.
- Pro Use Case: rund 30 anonymisierte Bewerbungsunterlagen.
- Aufgabe: Aus diesen Bewerbungen die Top 6 Kandidierenden auswählen, die zu einem Erstgespräch eingeladen werden sollten.
- Vergleich: Die Auswahl der KI wurde den tatsächlichen Entscheidungen aus den jeweiligen Use Cases gegenübergestellt.
Das technische Setup – drei KI-Modelle im Direktvergleich
Getestet wurden drei lokal betriebene Large Language Models (LLMs): Gemma, LLaMA und Mistral.
- Datenschutzkonform: Der lokale Betrieb stellte sicher, dass keine sensiblen personenbezogenen Daten in Cloud-Dienste gelangten – eine praxisrelevante Anforderung für Unternehmen.
- Prompt-Design: Den Modellen wurden die anonymisierten Bewerbungen, die jeweilige Stellenbeschreibung und die relevanten Bewertungskriterien übergeben.
- Variierende Kriterien: Je nach Use Case wurden nur jene Kriterien herangezogen, die auch in der menschlichen Auswahlentscheidung eine Rolle spielten. Für jedes Kriterium wurden 0 bis 20 Punkte vergeben (Gleichgewichtung), anschließend summiert und daraus die Top 6 ermittelt.
Zwei Prompt-Varianten – detailliert vs. kurz
Um den Einfluss der Anweisungen auf die Ergebnisse zu messen, kamen pro Modell zwei Prompt-Arten zum Einsatz:
- Detaillierter Prompt – mit konkreten Bewertungsanweisungen: Jede Bewerbung wurde dreimal bewertet und der Durchschnittswert daraus gebildet.
- Kurzer Prompt – nur mit Kriterien und Punkteskala:J jede Bewerbung wurde einmal bewertet.
Diese Konfiguration ermöglichte den Vergleich mit der menschlichen Auswahl sowie den Vergleich zwischen Modellen und Prompt-Varianten.
Warum dieses Experiment wichtig ist
Das Experiment ist so konzipiert, dass es die realen Arbeitsbedingungen in Personalabteilungen möglichst genau abbildet. Gleiche Ausgangsdaten, identische Kriterienauswahl je Use Case und eine datenschutzkonforme technische Umsetzung ermöglichen belastbare Aussagen darüber, wie KI bei der Selektion von Bewerbenden abschneidet. Die detaillierten Ergebnisse und deren Interpretation werden im zweiten Teil dieser Serie vorgestellt.
Der Autor
Lukas Schasching
Masterstudent Information Engineering und -Management
FH Oberösterreich, Campus Hagenberg
Lust auf mehr?
Hier geht es zu weiteren Artikeln rund um KI.
Ihre Mrs. TresKi
Sie wollen immer die neuesten TRESCON-Beiträge erhalten?
Abonnieren Sie unseren Newsletter und lesen Sie monatlich spannende Artikel.