Artikel

Building linguistic corpora from Wikipedia articles and discussions

Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus - DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings.

Building linguistic corpora from Wikipedia articles and discussions

Urheber*in: Margaretha, Eliza; Lüngen, Harald

Namensnennung 4.0 International

0
/
0

Sprache
Deutsch

Thema
Wikipedia
Korpus <Linguistik>
Computerlinguistik
Germanische Sprachen; Deutsch

Ereignis
Geistige Schöpfung
(wer)
Margaretha, Eliza
Lüngen, Harald
Ereignis
Veröffentlichung
(wann)
2014-12-16

URN
urn:nbn:de:bsz:mh39-33306
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Artikel

Beteiligte

  • Margaretha, Eliza
  • Lüngen, Harald

Entstanden

  • 2014-12-16

Ähnliche Objekte (12)