Recruiting im Faktencheck: Teil 2 - So präzise ist KI bei der Auswahl von Bewerbungen
Drei KI-Modelle, zwei Bewertungsansätze, drei echte Jobs – und die Ergebnisse des direkten Vergleichs mit den Entscheidungen erfahrener Recruiter*innen.
Einleitung
In einem Praxistest wurden drei lokal betriebene KI-Modelle – Gemma, LLaMA und Mistral – mit anonymisierten Bewerbungsunterlagen konfrontiert. Das Ziel bestand darin herauszufinden, wie gut ihre Auswahl der sechs besten Bewerbenden („Top 6“) mit den tatsächlichen Entscheidungen aus dem Recruiting übereinstimmt. Dabei wurde auch untersucht, welchen Einfluss die Art der Anweisung („Prompt“) auf die Ergebnisse hat:
- Detaillierter Prompt: präzise Vorgaben, dreifache Bewertung pro Bewerbung, Durchschnittswert.
- Kurzer Prompt: nur die relevanten Kriterien und eine einmalige Bewertung.
Wie gemessen wurde
Die zentrale Kennzahl war die Trefferquote: Sie gibt an, wie viele der KI-Vorschläge tatsächlich auch von den Recruiter*innen tatsächlich ausgewählt wurden. Beispiel: Wenn das Modell 6 Personen empfiehlt, von denen 4 auch in der Realität eingeladen werden, liegt die Trefferquote bei 66,67 %. Zusätzlich wurde betrachtet, wie ähnlich sich die verschiedenen Modell- und Prompt-Kombinationen sind – das nennt man Konsistenz. Eine hohe Konsistenz bedeutet, dass verschiedene Varianten oft dieselben Personen empfehlen.
Die besten und die schwächsten Ergebnisse
- LLaMA mit kurzem Prompt war im Durchschnitt über alle Use Cases am treffsichersten: 4 von 6 Empfehlungen (66,67 %) deckten sich mit der Praxis.
- Gemma mit kurzem Prompt folgte mit 61,11 % knapp dahinter.
- Am schwächsten schnitt Gemma mit detailliertem Prompt ab: Im Durchschnitt gab es nur 2 von 6 richtigen Treffern (33,33 %). In einem Fall lag die Trefferquote sogar bei 0 %, d. h., es wurde kein einziger korrekter Vorschlag gemacht.
- Die besten Einzelergebnisse erzielten Mistral mit detailliertem Prompt, Gemma mit kurzem Prompt und LLaMA mit kurzem Prompt mit jeweils 5 von 6 korrekten Empfehlungen (83,33 %) in einem der Szenarien.
Konsistenz – wie ähnlich urteilen die Modelle?
Im Durchschnitt stimmten über alle Szenarien hinweg nur 2 von 6 Empfehlungen zwischen den verschiedenen Varianten überein.
- Bei Use Case A (fünf Kriterien) war die Konsistenz mit durchschnittlich 61,65 % hoch, teilweise gab es sogar 100 % identische Vorschläge zwischen bestimmten Varianten.
- In den Szenarien B (acht Kriterien) und C (sieben Kriterien) fiel die Konsistenz hingegen drastisch: durchschnittlich betrug sie nur 15,88 % bzw. 12,93 %, oft gab es gar keine Überschneidungen.
Das heißt: Je mehr Kriterien die KI gleichzeitig berücksichtigen musste, desto unterschiedlicher fielen die Empfehlungen aus – selbst bei gleichem Prompt.
Was diese Unterschiede erklärt
- Prompt-Gestaltung zählt: Kürzere Prompts lieferten in manchen Fällen sogar bessere Ergebnisse als die detailreiche Variante. Offensichtlich können zu viele Details die Modelle in eine bestimmte Denkrichtung lenken – und damit an der Praxis vorbeiführen.
- Modellunterschiede: Die drei Modelle stammen von verschiedenen Anbietern und wurden mit unterschiedlichen Datensätzen trainiert. Das kann zu kulturellen und methodischen Unterschieden führen, die insbesondere bei internationalen Bewerbungsprofilen sichtbar werden. Solche Unterschiede können auch zu Bias führen – also zu systematischen Verzerrungen in der Bewertung –, die aus den Trainingsdaten oder den kulturellen Prägungen der Entwickler*innen stammen.
- Aufgabenkomplexität: Die Modelle konnten die Auswahl gut nachbilden, wenn nur wenige Kriterien berücksichtigt wurden. Mit zunehmender Komplexität (mehr Kriterien, stärkere interpretative Faktoren) nahmen die Abweichungen jedoch deutlich zu.
- Unterschiedliche Interpretation der Kriterien: Während menschliche HR-Fachkräfte ihre Erfahrung und ihr implizites Wissen einfließen lassen, orientieren sich die Modelle strikt an den vorgegebenen Parametern. Das bedeutet auch: Menschliche Recruiter*innen haben ebenso einen Bias und können von diesem beeinflusst werden.
Geschwindigkeit als klarer Vorteil
Während menschliche Recruiter*innen für die Durchsicht einer Bewerbung oft mehrere Minuten benötigen, lagen die Analysezeiten der getesteten KI-Modelle zwischen rund 9 Sekunden (Gemma) und 28 Sekunden (LLaMA). Dadurch ist eine Vorauswahl in einem Bruchteil der Zeit möglich – und es eröffnen sich neue Möglichkeiten wie etwa Mehrfachbewertungen zur Qualitätskontrolle, selbst bei sehr großen Bewerbungszahlen.
Fazit und Ausblick
KI kann im Recruiting schon heute erstaunlich treffsicher sein und in einzelnen Fällen die menschliche Auswahl nahezu perfekt treffen. Dennoch kann sie Erfahrung und Kontextwissen nicht ersetzen: Gerade bei komplexen Positionen und vielen Kriterien liefern die Modelle sehr unterschiedliche Vorschläge.
Der größte Nutzen liegt daher in einem hybriden Ansatz: KI als schneller, objektiver „Sparringspartner“, der menschliche Entscheidungen vorbereitet, ergänzt und manchmal auch hinterfragt. Ein unbestreitbarer Vorteil der Technologie liegt in ihrer Effizienz und Skalierbarkeit: Während menschliche Teams bei hohen Bewerbungszahlen an ihre Grenzen stoßen, können KI-Modelle innerhalb weniger Sekunden pro Bewerbung Tausende von Unterlagen analysieren und damit Prozesse erheblich beschleunigen.
„Die Zukunft liegt nicht in der vollständigen Automatisierung menschlicher Entscheidungen, sondern in der intelligenten Kombination von algorithmischer Effizienz mit menschlicher Expertise.“
Der Autor
Lukas Schasching
Masterstudent Information Engineering und -Management
FH Oberösterreich, Campus Hagenberg
Lust auf mehr?
Hier geht es zu weiteren Artikeln rund um KI.
Ihre Mrs. TresKi
Sie wollen immer die neuesten TRESCON-Beiträge erhalten?
Abonnieren Sie unseren Newsletter und lesen Sie monatlich spannende Artikel.