GiesKaNe: Korpusaufbau zwischen Standard und Innovation
-
Volker Emmrich
and Mathilde Hennig
Abstract
Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.
Abstract
Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.
Chapters in this book
- Frontmatter I
- Vorwort V
- Inhalt VII
- Zur Einführung: Korpora in der germanistischen Sprachwissenschaft IX
- Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo 1
- Korpora für die lexikographische Beschreibung diatopischer Variation in der deutschen Standardsprache 29
- Korpora zur deutschen Sprache in Österreich 53
- Das Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK) 71
- Ein Korpus für die vergleichende Interaktionsforschung 103
- Das GeWiss-Korpus: Neue Forschungs- und Vermittlungsperspektiven zur mündlichen Hochschulkommunikation 129
- Korpora für die Diskursanalyse 161
- Akustisches Signal, Mehrebenenannotation und Aufgabendesign: flexible Korpusarchitektur als Voraussetzung für die Wiederverwendung gesprochener Korpora 181
- GiesKaNe: Korpusaufbau zwischen Standard und Innovation 199
- Multimodale und agile Korpora 225
Chapters in this book
- Frontmatter I
- Vorwort V
- Inhalt VII
- Zur Einführung: Korpora in der germanistischen Sprachwissenschaft IX
- Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo 1
- Korpora für die lexikographische Beschreibung diatopischer Variation in der deutschen Standardsprache 29
- Korpora zur deutschen Sprache in Österreich 53
- Das Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK) 71
- Ein Korpus für die vergleichende Interaktionsforschung 103
- Das GeWiss-Korpus: Neue Forschungs- und Vermittlungsperspektiven zur mündlichen Hochschulkommunikation 129
- Korpora für die Diskursanalyse 161
- Akustisches Signal, Mehrebenenannotation und Aufgabendesign: flexible Korpusarchitektur als Voraussetzung für die Wiederverwendung gesprochener Korpora 181
- GiesKaNe: Korpusaufbau zwischen Standard und Innovation 199
- Multimodale und agile Korpora 225