Vergleich von Bewertungen standardisierter Prüfungen durch Menschen und Maschine

doi.org/10.82062/GFL.2025/03.03

Amir Mahdi Meshkin Mehr (Teheran), 42-63

2025 Issue 3

Abstract

Die Bewertung schriftlicher Prüfungsleistungen ist für Lehrkräfte zeitaufwendig und mit hohen Kosten für Institutionen sowie langen Wartezeiten für Lernende verbunden. Generative Sprachmodelle wie ChatGPT eröffnen neue Perspektiven für die Automati­sierung dieser Prozesse. In der Studie wurden Texte von 20 Lernenden auf der Niveau­stufe B2-1, die an einer standardisierten B1-Prüfung des Goethe-Instituts teilnahmen, von zwei zertifizierten Prüfenden sowie von ChatGPT korrigiert und nach den offiziellen Kriterien des Goethe-Instituts bewertet. Mithilfe von ICC-Analysen und Standard­abweichungen wurde die Übereinstimmung zwischen menschlichen und KI-basierten Bewertungen untersucht. Die Ergebnisse zeigen, dass menschliche Bewertungen größere Streuungen aufweisen, während ChatGPT konstantere Urteile liefert. Eine besonders hohe Reliabilität ergibt sich durch die Aggregation beider Bewertungsarten. Die Befunde verdeutlichen Potenziale und Herausforderungen beim Einsatz von ChatGPT in standardi­sierten Prüfungen. Auswirkung des Fernunterrichts auf die mündlichen Kompetenzen der Studierenden im DAF-Unterricht.