Konferenzbeitrag
Deduplication in large web corpora
Our paper tries to find answers to some questions related to deduplication process in large-scale web-crawled corpora. An experiment based on eight corpora from the Aranea family is introduced, and first results are presented.
- Sprache
-
Englisch
- Thema
-
Korpus <Linguistik>
Sprache
- Ereignis
-
Geistige Schöpfung
- (wer)
-
Benko, Vladimír
- Ereignis
-
Veröffentlichung
- (wer)
-
Mannheim : Leibniz-Institut für Deutsche Sprache
- (wann)
-
2019-07-04
- URN
-
urn:nbn:de:bsz:mh39-90221
- Letzte Aktualisierung
-
06.03.2025, 09:00 MEZ
Datenpartner
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.
Objekttyp
- Konferenzbeitrag
Beteiligte
- Benko, Vladimír
- Mannheim : Leibniz-Institut für Deutsche Sprache
Entstanden
- 2019-07-04