Buchbeitrag

Induktive Topikmodellierung und extrinsische Topikdomänen

Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.

Induktive Topikmodellierung und extrinsische Topikdomänen

Urheber*in: Bildhauer, Felix; Schäfer, Roland

Urheberrechtsschutz

0
/
0

Sprache
Deutsch

Thema
Korpus <Linguistik>
Metadaten
Automatische Klassifikation
Germanische Sprachen; Deutsch

Ereignis
Geistige Schöpfung
(wer)
Bildhauer, Felix
Schäfer, Roland
Ereignis
Veröffentlichung
(wer)
Berlin [u.a.] : de Gruyter
(wann)
2017-04-06

URN
urn:nbn:de:bsz:mh39-60463
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Buchbeitrag

Beteiligte

  • Bildhauer, Felix
  • Schäfer, Roland
  • Berlin [u.a.] : de Gruyter

Entstanden

  • 2017-04-06

Ähnliche Objekte (12)