Konferenzbeitrag

Removing spam from web corpora through supervised learning using FastText

Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer generated text from web corpora. The paper also presents a keyword comparison of an unfiltered corpus with the same collection of texts cleaned by a supervised classifier trained using FastText. The classifier was able to recognize 71% of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.

Sprache
Englisch

Thema
Korpus <Linguistik>
Internet
Texttechnologie
Datenmanagement
Sprache

Ereignis
Geistige Schöpfung
(wer)
Suchomel, Vít
Ereignis
Veröffentlichung
(wer)
Mannheim : Institut für Deutsche Sprache
(wann)
2017-07-06

URN
urn:nbn:de:bsz:mh39-62674
Letzte Aktualisierung
06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Konferenzbeitrag

Beteiligte

  • Suchomel, Vít
  • Mannheim : Institut für Deutsche Sprache

Entstanden

  • 2017-07-06

Ähnliche Objekte (12)