Buchbeitrag

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research purposes, however, other criteria also play a role – not least sufficient speed to process the data in an acceptable amount of time. In this paper we evaluate several state-ofthe-art tokenization tools for German – including our own – with regard to theses criteria. We conclude that while not all tools are applicable in this setting, no compromises regarding quality need to be made.

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

Urheber*in: Diewald, Nils; Kupietz, Marc; Lüngen, Harald

Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International

0
/
0

Sprache
Englisch

Thema
Korpus <Linguistik>
Software
Automatische Sprachanalyse
Daten
Deutsch
Englisch, Altenglisch

Ereignis
Geistige Schöpfung
(wer)
Diewald, Nils
Kupietz, Marc
Lüngen, Harald
Ereignis
Veröffentlichung
(wer)
Mannheim : IDS-Verlag
(wann)
2022-07-12

URN
urn:nbn:de:bsz:mh39-111245
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Buchbeitrag

Beteiligte

  • Diewald, Nils
  • Kupietz, Marc
  • Lüngen, Harald
  • Mannheim : IDS-Verlag

Entstanden

  • 2022-07-12

Ähnliche Objekte (12)