Induktive Topikmodellierung und extrinsische Topikdomänen
-
Felix Bildhauer
and Roland Schäfer
Abstract
Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.
Abstract
Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.
Chapters in this book
- Frontmatter I
- Vorwort V
- Inhalt VII
- Einleitung XI
-
Variationsdimensionen
- Standarddeutsch – die beste aller möglichen Sprachen 3
- Grammatik und Variation im Spannungsfeld von Sprachwissenschaft und öffentlicher Sprachreflexion 23
- „Das ist nicht falsch, klingt aber irgendwie komisch“ 47
- „Mit eynre ander manier dan nu“ – Historische Variation bei Vergleichskonstruktionen 65
- Areale grammatische Variation in den Gebrauchsstandards des Deutschen 85
- Grammatische Variation in Gespräch, Text und internetbasierter Kommunikation 105
-
Empirische Zugänge – empirische Methoden
- Variationistische Korpusstudien 129
- Syntaktische Variation: Unterspezifikation und Skalen 145
- Psycho-/Neurolinguistik: Neuronale Korrelate der Verarbeitung grammatischer Variation 161
-
Empirie und Theorie in der Grammatikschreibung
- Die allophonischen Frikative in der Standardsprache und in den hessischen Dialekten 181
- Genusvariation: Was offenbart sie über die innere Dynamik des Systems? 203
- Perspektiven auf syntaktische Variation 229
- Grammatische Variation und realistische Grammatik 255
- Theory, data, and the epistemology of syntax 283
-
Methodenmesse
- Wie Wörter Wellen werden Die Untersuchung von Sprachverarbeitung mittels EEG 301
- Multimodale Daten für die empirische Analyse grammatischer Variation in Übersetzungen 309
- Möglichkeiten der Erforschung grammatischer Variation mithilfe von KorAP 319
- Induktive Topikmodellierung und extrinsische Topikdomänen 331
- Standardisierte statistische Auswertung von Korpusdaten im Projekt „Korpusgrammatik“ (KoGra-R) 345
Chapters in this book
- Frontmatter I
- Vorwort V
- Inhalt VII
- Einleitung XI
-
Variationsdimensionen
- Standarddeutsch – die beste aller möglichen Sprachen 3
- Grammatik und Variation im Spannungsfeld von Sprachwissenschaft und öffentlicher Sprachreflexion 23
- „Das ist nicht falsch, klingt aber irgendwie komisch“ 47
- „Mit eynre ander manier dan nu“ – Historische Variation bei Vergleichskonstruktionen 65
- Areale grammatische Variation in den Gebrauchsstandards des Deutschen 85
- Grammatische Variation in Gespräch, Text und internetbasierter Kommunikation 105
-
Empirische Zugänge – empirische Methoden
- Variationistische Korpusstudien 129
- Syntaktische Variation: Unterspezifikation und Skalen 145
- Psycho-/Neurolinguistik: Neuronale Korrelate der Verarbeitung grammatischer Variation 161
-
Empirie und Theorie in der Grammatikschreibung
- Die allophonischen Frikative in der Standardsprache und in den hessischen Dialekten 181
- Genusvariation: Was offenbart sie über die innere Dynamik des Systems? 203
- Perspektiven auf syntaktische Variation 229
- Grammatische Variation und realistische Grammatik 255
- Theory, data, and the epistemology of syntax 283
-
Methodenmesse
- Wie Wörter Wellen werden Die Untersuchung von Sprachverarbeitung mittels EEG 301
- Multimodale Daten für die empirische Analyse grammatischer Variation in Übersetzungen 309
- Möglichkeiten der Erforschung grammatischer Variation mithilfe von KorAP 319
- Induktive Topikmodellierung und extrinsische Topikdomänen 331
- Standardisierte statistische Auswertung von Korpusdaten im Projekt „Korpusgrammatik“ (KoGra-R) 345