Konferenzbeitrag

Deduplication in large web corpora

Our paper tries to find answers to some questions related to deduplication process in large-scale web-crawled corpora. An experiment based on eight corpora from the Aranea family is introduced, and first results are presented.

Deduplication in large web corpora

Urheber*in: Benko, Vladimír

Namensnennung 4.0 International

0
/
0

Sprache
Englisch

Thema
Korpus <Linguistik>
Sprache

Ereignis
Geistige Schöpfung
(wer)
Benko, Vladimír
Ereignis
Veröffentlichung
(wer)
Mannheim : Leibniz-Institut für Deutsche Sprache
(wann)
2019-07-04

URN
urn:nbn:de:bsz:mh39-90221
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Konferenzbeitrag

Beteiligte

  • Benko, Vladimír
  • Mannheim : Leibniz-Institut für Deutsche Sprache

Entstanden

  • 2019-07-04

Ähnliche Objekte (12)