Konferenzbeitrag

Data point selection for self-training

Problems for parsing morphologically rich languages are, amongst others, caused by the higher variability in structure due to less rigid word order constraints and by the higher number of different lexical forms. Both properties can result in sparse data problems for statistical parsing. We present a simple approach for addressing these issues. Our approach makes use of self-training on instances selected with regard to their similarity to the annotated data. Our similarity measure is based on the perplexity of part-of-speech trigrams of new instances measured against the annotated training data. Preliminary results show that our method outperforms a self-training setting where instances are simply selected by order of occurrence in the corpus and argue that selftraining is a cheap and effective method for improving parsing accuracy for morphologically rich languages.

Urheber*in: Rehbein, Ines

Namensnennung - Nicht kommerziell - Weitergabe unter gleichen Bedingungen 4.0 International

Sprache: Englisch

Thema: Satzanalyse
Automatische Sprachanalyse
Sprache

Ereignis: Geistige Schöpfung

(wer): Rehbein, Ines

Ereignis: Veröffentlichung

(wer): Stroudsburg, PA : Association for Computational

(wann): 2016-11-21

URN: urn:nbn:de:bsz:mh39-56043

Letzte Aktualisierung: 06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Original beim Datenpartner anzeigen

Objekttyp

Konferenzbeitrag

Beteiligte

Rehbein, Ines
Stroudsburg, PA : Association for Computational

Entstanden

2016-11-21

Ähnliche Objekte (12)

Konferenzbeitrag

Data point selection for genre-aware parsing

Konferenzbeitrag

Data point selection for genre-aware parsing

Data point selection for self-training

Konferenzbeitrag

POS error detection in automatically annotated corpora

Konferenzbeitrag

A New Resource for German Causal Language

Konferenzbeitrag

Treebank Annotation Schemes and Parser Evaluation for German

Konferenzbeitrag

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Konferenzbeitrag

Evaluating Evaluation Measures

Konferenzbeitrag

Towards a syntactically motivated analysis of modifiers in German

Konferenzbeitrag

Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited

Konferenzbeitrag

Detecting the boundaries of sentence-like units on spoken German

Konferenzbeitrag

Evaluating the Impact of Coder Errors on Active Learning

Konferenzbeitrag

Data point selection for genre-aware parsing

Konferenzbeitrag

Data point selection for genre-aware parsing

Data point selection for self-training

Konferenzbeitrag

POS error detection in automatically annotated corpora

Konferenzbeitrag

A New Resource for German Causal Language

Konferenzbeitrag

Treebank Annotation Schemes and Parser Evaluation for German

Konferenzbeitrag

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Konferenzbeitrag

Evaluating Evaluation Measures

Konferenzbeitrag

Towards a syntactically motivated analysis of modifiers in German

Konferenzbeitrag

Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited

Konferenzbeitrag

Detecting the boundaries of sentence-like units on spoken German

Konferenzbeitrag

Evaluating the Impact of Coder Errors on Active Learning

Konferenzbeitrag

Data point selection for genre-aware parsing

Konferenzbeitrag

Data point selection for genre-aware parsing

Data point selection for self-training

Konferenzbeitrag

POS error detection in automatically annotated corpora

Konferenzbeitrag

A New Resource for German Causal Language

Konferenzbeitrag

Treebank Annotation Schemes and Parser Evaluation for German

Konferenzbeitrag

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Konferenzbeitrag

Evaluating Evaluation Measures

Konferenzbeitrag

Towards a syntactically motivated analysis of modifiers in German

Konferenzbeitrag

Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited

Konferenzbeitrag

Detecting the boundaries of sentence-like units on spoken German

Konferenzbeitrag

Evaluating the Impact of Coder Errors on Active Learning

Informationen zur Registrierung von Kultur- und Wissenseinrichtungen finden Sie hier.

Felder mit * müssen ausgefüllt werden.

Benutzername*

Bitte geben Sie Ihren Benutzernamen ein

E-Mail*

Bitte geben Sie Ihre E-Mail ein

Bitte füllen Sie dieses Feld nicht aus

Vorname

Nachname

Passwort*

Bitte geben Sie Ihr Passwort ein

Passwort bestätigen*

Bitte geben Sie das gleiche Passwort ein

Ich habe die Nutzungsbedingungen und die Datenschutzerklärung zur Erhebung persönlicher Daten gelesen und stimme ihnen zu. *

Dieses Feld ist ein Pflichtfeld.

Ich möchte den Newsletter der Deutschen Digitalen Bibliothek abonnieren. Siehe Informationen zum Newsletter-Abonnement.

Benutzerkonto angelegt

Ihr „Meine DDB“-Konto wurde erfolgreich angelegt. Bevor Sie sich in Ihrem Konto anmelden können, müssen Sie auf den Bestätigungslink in der Nachricht klicken, die wir gerade an die von Ihnen angegebene E-Mail-Adresse geschickt haben

Data point selection for self-training

Download

Angaben zum Objekt

Klassifikation und Themen

Beteiligte, Orts- und Zeitangaben

Weitere Informationen

Datenpartner

Objekttyp

Beteiligte

Entstanden

Ähnliche Objekte (12)

Data point selection for genre-aware parsing

Data point selection for genre-aware parsing

Data point selection for self-training

POS error detection in automatically annotated corpora

A New Resource for German Causal Language

Treebank Annotation Schemes and Parser Evaluation for German

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Evaluating Evaluation Measures

Towards a syntactically motivated analysis of modifiers in German

Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited

Detecting the boundaries of sentence-like units on spoken German

Evaluating the Impact of Coder Errors on Active Learning

Data point selection for genre-aware parsing

Data point selection for genre-aware parsing

Data point selection for self-training

POS error detection in automatically annotated corpora

A New Resource for German Causal Language

Treebank Annotation Schemes and Parser Evaluation for German

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Evaluating Evaluation Measures

Towards a syntactically motivated analysis of modifiers in German

Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited

Detecting the boundaries of sentence-like units on spoken German

Evaluating the Impact of Coder Errors on Active Learning

Data point selection for genre-aware parsing

Data point selection for genre-aware parsing

Data point selection for self-training

POS error detection in automatically annotated corpora

A New Resource for German Causal Language

Treebank Annotation Schemes and Parser Evaluation for German

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Evaluating Evaluation Measures

Towards a syntactically motivated analysis of modifiers in German

Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited

Detecting the boundaries of sentence-like units on spoken German

Evaluating the Impact of Coder Errors on Active Learning

Verbundene Objekte

Passwort zurücksetzen