Home German Linguistics Induktive Topikmodellierung und extrinsische Topikdomänen
Chapter
Licensed
Unlicensed Requires Authentication

Induktive Topikmodellierung und extrinsische Topikdomänen

  • Felix Bildhauer and Roland Schäfer
Become an author with De Gruyter Brill
Grammatische Variation
This chapter is in the book Grammatische Variation

Abstract

Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.

Abstract

Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.

Chapters in this book

  1. Frontmatter I
  2. Vorwort V
  3. Inhalt VII
  4. Einleitung XI
  5. Variationsdimensionen
  6. Standarddeutsch – die beste aller möglichen Sprachen 3
  7. Grammatik und Variation im Spannungsfeld von Sprachwissenschaft und öffentlicher Sprachreflexion 23
  8. „Das ist nicht falsch, klingt aber irgendwie komisch“ 47
  9. „Mit eynre ander manier dan nu“ – Historische Variation bei Vergleichskonstruktionen 65
  10. Areale grammatische Variation in den Gebrauchsstandards des Deutschen 85
  11. Grammatische Variation in Gespräch, Text und internetbasierter Kommunikation 105
  12. Empirische Zugänge – empirische Methoden
  13. Variationistische Korpusstudien 129
  14. Syntaktische Variation: Unterspezifikation und Skalen 145
  15. Psycho-/Neurolinguistik: Neuronale Korrelate der Verarbeitung grammatischer Variation 161
  16. Empirie und Theorie in der Grammatikschreibung
  17. Die allophonischen Frikative in der Standardsprache und in den hessischen Dialekten 181
  18. Genusvariation: Was offenbart sie über die innere Dynamik des Systems? 203
  19. Perspektiven auf syntaktische Variation 229
  20. Grammatische Variation und realistische Grammatik 255
  21. Theory, data, and the epistemology of syntax 283
  22. Methodenmesse
  23. Wie Wörter Wellen werden Die Untersuchung von Sprachverarbeitung mittels EEG 301
  24. Multimodale Daten für die empirische Analyse grammatischer Variation in Übersetzungen 309
  25. Möglichkeiten der Erforschung grammatischer Variation mithilfe von KorAP 319
  26. Induktive Topikmodellierung und extrinsische Topikdomänen 331
  27. Standardisierte statistische Auswertung von Korpusdaten im Projekt „Korpusgrammatik“ (KoGra-R) 345
Downloaded on 28.1.2026 from https://www.degruyterbrill.com/document/doi/10.1515/9783110518214-020/html
Scroll to top button