Konferenzbeitrag

Modelling large parallel corpora. The Zurich Parallel Corpus Collection

Text corpora come in many different shapes and sizes and carry heterogeneous annotations, depending on their purpose and design. The true benefit of corpora is rooted in their annotation and the method by which this data is encoded is an important factor in their interoperability. We have accumulated a large collection of multilingual and parallel corpora and encoded it in a unified format which is compatible with a broad range of NLP tools and corpus linguistic applications. In this paper, we present our corpus collection and describe a data model and the extensions to the popular CoNLL-U format that enable us to encode it.

Modelling large parallel corpora. The Zurich Parallel Corpus Collection

Urheber*in: Graën, Johannes; Kew, Tannon; Shaitarova, Anastassia; Volk, Martin

Namensnennung 4.0 International

0
/
0

Sprache
Englisch

Thema
Korpus <Linguistik>
Sprache

Ereignis
Geistige Schöpfung
(wer)
Graën, Johannes
Kew, Tannon
Shaitarova, Anastassia
Volk, Martin
Ereignis
Veröffentlichung
(wer)
Mannheim : Leibniz-Institut für Deutsche Sprache
(wann)
2019-07-04

URN
urn:nbn:de:bsz:mh39-90207
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Konferenzbeitrag

Beteiligte

  • Graën, Johannes
  • Kew, Tannon
  • Shaitarova, Anastassia
  • Volk, Martin
  • Mannheim : Leibniz-Institut für Deutsche Sprache

Entstanden

  • 2019-07-04

Ähnliche Objekte (12)