Buchbeitrag

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research purposes, however, other criteria also play a role – not least sufficient speed to process the data in an acceptable amount of time. In this paper we evaluate several state-ofthe-art tokenization tools for German – including our own – with regard to theses criteria. We conclude that while not all tools are applicable in this setting, no compromises regarding quality need to be made.

Urheber*in: Diewald, Nils; Kupietz, Marc; Lüngen, Harald

Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International

Sprache: Englisch

Thema: Korpus <Linguistik>
Software
Automatische Sprachanalyse
Daten
Deutsch
Englisch, Altenglisch

Ereignis: Geistige Schöpfung

(wer): Diewald, Nils
Kupietz, Marc
Lüngen, Harald

Ereignis: Veröffentlichung

(wer): Mannheim : IDS-Verlag

(wann): 2022-07-12

URN: urn:nbn:de:bsz:mh39-111245

Letzte Aktualisierung: 06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Original beim Datenpartner anzeigen

Objekttyp

Buchbeitrag

Beteiligte

Diewald, Nils
Kupietz, Marc
Lüngen, Harald
Mannheim : IDS-Verlag

Entstanden

2022-07-12

Ähnliche Objekte (12)

Buchbeitrag

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

Konferenzbeitrag

CMC Corpora in DeReKo

Artikel

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014

Konferenzbeitrag

Recent developments in DeReKo

Buchbeitrag

IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache

Artikel

Zum Nutzen von Korpusauszeichnungen für die Lexikographie

Konferenzbeitrag

Igel: Comparing document grammars using XQuery

Buchbeitrag

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

Buchbeitrag

The German reference corpus DeReKo: new developments – new opportunities

Buchbeitrag

The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls

Buchbeitrag

Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

Artikel

DeReKo durchbricht Drei-Milliarden-Grenze

Buchbeitrag

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

Konferenzbeitrag

CMC Corpora in DeReKo

Artikel

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014

Konferenzbeitrag

Recent developments in DeReKo

Buchbeitrag

IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache

Artikel

Zum Nutzen von Korpusauszeichnungen für die Lexikographie

Konferenzbeitrag

Igel: Comparing document grammars using XQuery

Buchbeitrag

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

Buchbeitrag

The German reference corpus DeReKo: new developments – new opportunities

Buchbeitrag

The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls

Buchbeitrag

Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

Artikel

DeReKo durchbricht Drei-Milliarden-Grenze

Buchbeitrag

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

Konferenzbeitrag

CMC Corpora in DeReKo

Artikel

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014

Konferenzbeitrag

Recent developments in DeReKo

Buchbeitrag

IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache

Artikel

Zum Nutzen von Korpusauszeichnungen für die Lexikographie

Konferenzbeitrag

Igel: Comparing document grammars using XQuery

Buchbeitrag

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

Buchbeitrag

The German reference corpus DeReKo: new developments – new opportunities

Buchbeitrag

The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls

Buchbeitrag

Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

Artikel

DeReKo durchbricht Drei-Milliarden-Grenze

Informationen zur Registrierung von Kultur- und Wissenseinrichtungen finden Sie hier.

Felder mit * müssen ausgefüllt werden.

Benutzername*

Bitte geben Sie Ihren Benutzernamen ein

E-Mail*

Bitte geben Sie Ihre E-Mail ein

Bitte füllen Sie dieses Feld nicht aus

Vorname

Nachname

Passwort*

Bitte geben Sie Ihr Passwort ein

Passwort bestätigen*

Bitte geben Sie das gleiche Passwort ein

Ich habe die Nutzungsbedingungen und die Datenschutzerklärung zur Erhebung persönlicher Daten gelesen und stimme ihnen zu. *

Dieses Feld ist ein Pflichtfeld.

Ich möchte den Newsletter der Deutschen Digitalen Bibliothek abonnieren. Siehe Informationen zum Newsletter-Abonnement.

Benutzerkonto angelegt

Ihr „Meine DDB“-Konto wurde erfolgreich angelegt. Bevor Sie sich in Ihrem Konto anmelden können, müssen Sie auf den Bestätigungslink in der Nachricht klicken, die wir gerade an die von Ihnen angegebene E-Mail-Adresse geschickt haben

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

Download

Angaben zum Objekt

Klassifikation und Themen

Beteiligte, Orts- und Zeitangaben

Weitere Informationen

Datenpartner

Objekttyp

Beteiligte

Entstanden

Ähnliche Objekte (12)

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

CMC Corpora in DeReKo

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014

Recent developments in DeReKo

IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache

Zum Nutzen von Korpusauszeichnungen für die Lexikographie

Igel: Comparing document grammars using XQuery

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

The German reference corpus DeReKo: new developments – new opportunities

The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls

Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

DeReKo durchbricht Drei-Milliarden-Grenze

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

CMC Corpora in DeReKo

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014

Recent developments in DeReKo

IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache

Zum Nutzen von Korpusauszeichnungen für die Lexikographie

Igel: Comparing document grammars using XQuery

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

The German reference corpus DeReKo: new developments – new opportunities

The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls

Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

DeReKo durchbricht Drei-Milliarden-Grenze

Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level

CMC Corpora in DeReKo

Das Deutsche Referenzkorpus DEREKO im Jubiläumsjahr 2014

Recent developments in DeReKo

IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache

Zum Nutzen von Korpusauszeichnungen für die Lexikographie

Igel: Comparing document grammars using XQuery

Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

The German reference corpus DeReKo: new developments – new opportunities

The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls

Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

DeReKo durchbricht Drei-Milliarden-Grenze

Verbundene Objekte

Passwort zurücksetzen