Konferenzbeitrag

Matrix and double-array representations for efficient finite state tokenization

This paper presents an algorithm and an implementation for efficient tokenization of texts of space-delimited languages based on a deterministic finite state automaton. Two representations of the underlying data structure are presented and a model implementation for German is compared with state-of-the-art approaches. The presented solution is faster than other tools while maintaining comparable quality.

0
/
0

Sprache
Englisch

Thema
Algorithmus
Endlicher Zustandsraum
Datenstruktur
Deutsch
Korpus <Linguistik>
Sprache

Ereignis
Geistige Schöpfung
(wer)
Diewald, Nils
Ereignis
Veröffentlichung
(wer)
Paris : European Language Resources Association (ELRA)
Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)
(wann)
2022-07-01

URN
urn:nbn:de:bsz:mh39-111091
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Konferenzbeitrag

Beteiligte

  • Diewald, Nils
  • Paris : European Language Resources Association (ELRA)
  • Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

Entstanden

  • 2022-07-01

Ähnliche Objekte (12)