Buchbeitrag
Induktive Topikmodellierung und extrinsische Topikdomänen
Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.
- Sprache
-
Deutsch
- Thema
-
Korpus <Linguistik>
Metadaten
Automatische Klassifikation
Germanische Sprachen; Deutsch
- Ereignis
-
Geistige Schöpfung
- (wer)
-
Bildhauer, Felix
Schäfer, Roland
- Ereignis
-
Veröffentlichung
- (wer)
-
Berlin [u.a.] : de Gruyter
- (wann)
-
2017-04-06
- URN
-
urn:nbn:de:bsz:mh39-60463
- Letzte Aktualisierung
-
06.03.2025, 09:00 MEZ
Datenpartner
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.
Objekttyp
- Buchbeitrag
Beteiligte
- Bildhauer, Felix
- Schäfer, Roland
- Berlin [u.a.] : de Gruyter
Entstanden
- 2017-04-06