Konferenzbeitrag
Matrix and double-array representations for efficient finite state tokenization
This paper presents an algorithm and an implementation for efficient tokenization of texts of space-delimited languages based on a deterministic finite state automaton. Two representations of the underlying data structure are presented and a model implementation for German is compared with state-of-the-art approaches. The presented solution is faster than other tools while maintaining comparable quality.
- Sprache
-
Englisch
- Thema
-
Algorithmus
Endlicher Zustandsraum
Datenstruktur
Deutsch
Korpus <Linguistik>
Sprache
- Ereignis
-
Geistige Schöpfung
- (wer)
-
Diewald, Nils
- Ereignis
-
Veröffentlichung
- (wer)
-
Paris : European Language Resources Association (ELRA)
Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)
- (wann)
-
2022-07-01
- URN
-
urn:nbn:de:bsz:mh39-111091
- Letzte Aktualisierung
-
06.03.2025, 09:00 MEZ
Datenpartner
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.
Objekttyp
- Konferenzbeitrag
Beteiligte
- Diewald, Nils
- Paris : European Language Resources Association (ELRA)
- Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)
Entstanden
- 2022-07-01