Startseite Germanistische Linguistik KI in der Testentwicklung: zur Nützlichkeit von LLMs bei der Erstellung von Prüfungstexten
Artikel
Lizenziert
Nicht lizenziert Erfordert eine Authentifizierung

KI in der Testentwicklung: zur Nützlichkeit von LLMs bei der Erstellung von Prüfungstexten

  • Anja Peters

    studierte Anglistik, Germanistik und Amerikanistik in Frankfurt, Southampton und Minneapolis. Nach ihrer Promotion arbeitete sie als Dozentin an mehreren Universitäten in Großbritannien. Seit März 2018 ist sie bei der Gesellschaft für akademische Studienvorbereitung und Testentwicklung (g.a.s.t.) als Referentin für Produktentwicklung tätig. Dort ist sie für die rezeptiven Prüfungsteile des TestDaF zuständig, erstellt Vorbereitungsmaterialien und führt Fortbildungen zu Themen der Testentwicklung durch.

    EMAIL logo
    , Anastasia Drackert

    ist seit dem 1. Januar 2022 Wissenschaftliche Direktorin von g.a.s.t. und damit die inhaltlich und wissenschaftlich Verantwortliche für die Produkte und die Forschung. Gleichzeitig ist sie Professorin an der Ruhr-Universität Bochum. In ihren zahlreichen empirischen Studien zum Testen fremdsprachlicher Kompetenz untersuchte sie unter anderem die Leistungsbeurteilungskompetenz (assessment literacy) von Fremdsprachenlehrkräften, den Einsatz von Selbstevaluationen im Fremdsprachenunterricht und das Konstrukt des C-Tests.

    und Andrea Horbach

    ist Computerlinguistin und seit 2024 Professorin für Lehren und Lernen in der Digitalen Welt an der Christian-Albrechts-Universität zu Kiel und am Leibniz-Institut für Pädagogik der Naturwissenschaften und Mathematik. Sie forscht zu sprachtechnologischen Anwendungen im Bildungsbereich, wie zum Beispiel automatisierte Freitextbewertung, Erstellung von Übungsmaterialien und Feedbackgenerierung.

Veröffentlicht/Copyright: 3. Februar 2026
Veröffentlichen auch Sie bei De Gruyter Brill

Zusammenfassung

Um das Potenzial generativer KI für die Erstellung von Leseverstehensaufgaben in einer DaF-Prüfung mit Hochschulbezug zu ermitteln, wurden Lesepassagen, die von geschulten Autorinnen und Autoren erstellt worden waren, mit GPT-generierten Texten verglichen. Die Ergebnisse der Analyse zeigen, dass die von KI kreierten Texte einen wertvollen Ausgangspunkt für die Erstellung von Prüfungstexten bieten, Anpassungen jedoch erforderlich sind. Abschließend werden Anwendungsmöglichkeiten der Forschungsergebnisse für den Sprachunterricht, insbesondere im Kontext der Prüfungsvorbereitung, diskutiert.

Abstract

In order to determine the potential of generative AI for the development of input texts for use in a test for German as a foreign language, we evaluated reading passages created by trained writers against GPT-generated texts. The results of the analysis show that the AI-generated texts provide a valuable starting point for the creation of exam texts, but that adjustments are necessary. Finally, we discuss possible applications of the research results to language teaching.

Über die Autoren

Anja Peters

studierte Anglistik, Germanistik und Amerikanistik in Frankfurt, Southampton und Minneapolis. Nach ihrer Promotion arbeitete sie als Dozentin an mehreren Universitäten in Großbritannien. Seit März 2018 ist sie bei der Gesellschaft für akademische Studienvorbereitung und Testentwicklung (g.a.s.t.) als Referentin für Produktentwicklung tätig. Dort ist sie für die rezeptiven Prüfungsteile des TestDaF zuständig, erstellt Vorbereitungsmaterialien und führt Fortbildungen zu Themen der Testentwicklung durch.

Anastasia Drackert

ist seit dem 1. Januar 2022 Wissenschaftliche Direktorin von g.a.s.t. und damit die inhaltlich und wissenschaftlich Verantwortliche für die Produkte und die Forschung. Gleichzeitig ist sie Professorin an der Ruhr-Universität Bochum. In ihren zahlreichen empirischen Studien zum Testen fremdsprachlicher Kompetenz untersuchte sie unter anderem die Leistungsbeurteilungskompetenz (assessment literacy) von Fremdsprachenlehrkräften, den Einsatz von Selbstevaluationen im Fremdsprachenunterricht und das Konstrukt des C-Tests.

Andrea Horbach

ist Computerlinguistin und seit 2024 Professorin für Lehren und Lernen in der Digitalen Welt an der Christian-Albrechts-Universität zu Kiel und am Leibniz-Institut für Pädagogik der Naturwissenschaften und Mathematik. Sie forscht zu sprachtechnologischen Anwendungen im Bildungsbereich, wie zum Beispiel automatisierte Freitextbewertung, Erstellung von Übungsmaterialien und Feedbackgenerierung.

Literatur

Adesso, Gerardo (2023): „Towards the ultimate brain: Exploring scientific discovery with ChatGPT AI“. In: AI Magazine 44 (3), 328–342. DOI: https://doi.org/10.1002/aaai.12113.Suche in Google Scholar

Alkaissi, Hussam; McFarlane, Samy I. (2023): „Artificial hallucinations in ChatGPT: Implications in scientific writing“. In: Cureus 15 (2), e35179. DOI: https://doi.org/10.7759/cureus.35179.Suche in Google Scholar

Attali, Yigal; Runge, Andrew; LaFlair, Geoffrey T.; Yancey, Kevin; Goodwin, Sarah; Park, Yena; Davier, Alina A. von (2022): „The interactive reading task: Transformer-based automatic item generation“. In: Frontiers in Artificial Intelligence 5, 1–13. DOI: https://doi.org/10.3389/frai.2022.903077. 10.3389/frai.2022.903077Suche in Google Scholar

Benedetto, Luca; Gaudeau, Gabrielle; Caines, Andrew; Buttery, Paula (2025): „Assessing how accurately large language models encode and apply the common European framework of reference for languages“. In: Computers and Education: Artificial Intelligence 8, 1–24. DOI: https://doi.org/10.1016/j.caeai.2024.100353.Suche in Google Scholar

Bolender, Brad; Foster, Charles; Vispoel, Sara (2023): „The criticality of implementing principled design when using AI technologies in test development“. In: Language Assessment Quarterly 20 (4/5), 512–519. DOI: https://doi.org/10.1080/15434303.2023.2288266. Suche in Google Scholar

Brunfaut, Tineke (2021): „Assessing reading“. In: Fulcher, Glenn; Harding, Luke (Hrsg.): The Routledge handbook of language testing. London: Routledge, 254–267. DOI: https://doi.org/10.4324/9781003220756.Suche in Google Scholar

Chapelle, Carol A.; Lee, Hyewon (2021): „Understanding argument-based validity in language testing“. In: Chapelle, Caroline A.; Voss, Erik (Hrsg.): Validity argument in language testing: Case studies of validation research. Cambridge: Cambridge University Press, 19–44. DOI: https://doi.org/10.1017/9781108669849.004.Suche in Google Scholar

Chen, Jing; Sheehan, Kathleen M. (2015): „Analyzing and comparing reading stimulus materials across the ‘TOEFL’® Family of Assessments. ‘TOEFL iBT’® Research Report. TOEFL iBT-26. ETS Research Report no. RR-15-08“. In: ETS Research Report Series 1, 1–14. DOI: https://doi.org/10.1002/ets2.12055.Suche in Google Scholar

Drackert, Anastasia; Horbach, Andrea; Peters, Anja (2025): „How good are LLMs in generating input text for reading tasks in German as a foreign language?“. In: Annual Review of Applied Linguistics 45, 222–252. DOI: https://doi.org/10.1017/S0267190525000066.Suche in Google Scholar

Feng, Shangbin; Park, Chanyoung; Liu, Yuhan; Tsvetkov, Yulia (2023): „From pretraining data to language models to downstream tasks: Tracking the trails of political biases leading to unfair NLP models“. In: Rogers, Anna; Boyd-Graber, Jordan; Okazaki, Naoaki (Hrsg.): Proceedings of the 61st annual meeting of the Association for Computational Linguistics, Band 1. Toronto: Association for Computational Linguistics, 11737-11762. DOI: https://doi.org/10.48550/arXiv.2305.08283.Suche in Google Scholar

Green, Anthony; Hawkey, Roger (2011): „Re-fitting for a different purpose: A case study of item writer practices in adapting source texts for a test of academic reading“. In: Language Testing 29 (1), 109–129. DOI: https://doi.org/10.1177/0265532211413445.Suche in Google Scholar

Jeon, Eun Hee; Yamashita, Junko (2020): „Measuring L2 reading“. In: The Routledge handbook of second language acquisition and language testing, 265–274. DOI: https://doi.org/10.4324/9781351034784.Suche in Google Scholar

Norris, John; Drackert, Anastasia (2018): „Test review: TestDaF“. In: Language Testing 35 (1), 149–157. DOI: https://doi.org/10.1177/0265532217715848.Suche in Google Scholar

O’Sullivan, Barry (2023): „Reflections on the application and validation of technology in language testing“. In: Language Assessment Quarterly 20 (4–5), 501–511. DOI: https://doi.org/10.1080/15434303.2023.2291486.Suche in Google Scholar

Pugh, Debra; De Champlain, André; Gierl, Mark; Lai, Hollis; Touchie, Claire (2020): „Can automated item generation be used to develop high quality MCQs that assess application of knowledge?“. In: Research and Practice in Technology Enhanced Learning 15, Art. 12. DOI: https://doi.org/10.1186/s41039-020-00134-8. Suche in Google Scholar

Shin, Dongkwang; Lee, Jangho (2023): „Can ChatGPT make reading comprehension testing items on par with human experts?“. In: Language Learning & Technology 27 (3), 27–40. DOI: https://doi.org/10.64152/10125/73530.10.64152/10125/73530Suche in Google Scholar

Xia, Menglin; Kochmar, Ekaterina; Briscoe, Ted (2016): „Text readability assessment for second language learners“. In: Tetreault, Joel; Burstein, Jill; Leacock, Claudia; Yannakoudakis, Helen (Hrsg.): Proceedings of the 11th workshop on innovative use of NLP for building educational applications. San Diego, CA: Association for Computational Linguistics, 12–22. DOI: https://doi.org/10.18653/v1/W16-0502.Suche in Google Scholar

Xiao, Changrong; Xu, Xin Sean; Zhang, Kunpeng; Wang, Yufang; Xia, Lei (2023): „Evaluating reading comprehension exercises generated by LLMs: A showcase of ChatGPT in education applications“. In: Kochmar, Ekaterina; Burstein, Jill; Horbach, Andrea; Laarmann-Quante, Ronja; Madnani, Nitin; Tack, Anais; Yaneva, Victoria; Zheng, Yuan; Zesch, Torsten (Hrsg.): Proceedings of the 18th workshop on innovative use of NLP for building educational applications. Toronto: Association for Computional Linguistics, 610–625. DOI: https://doi.org/10.18653/v1/2023.bea-1.52.Suche in Google Scholar

Online erschienen: 2026-02-03
Erschienen im Druck: 2026-02-03

© 2026 Walter de Gruyter GmbH, Berlin/Boston

Heruntergeladen am 5.2.2026 von https://www.degruyterbrill.com/document/doi/10.1515/infodaf-2026-0005/html?lang=de
Button zum nach oben scrollen