Konferenzbeitrag

Evaluating DBMS-based Access Strategies to Very Large Multi-layer Corpora

Linguistic query systems are special purpose IR applications. As text sizes, annotation layers, and metadata schemes of language corpora grow rapidly, performing complex searches becomes a highly computational expensive task. We evaluate several storage models and indexing variants in two multi-processor/multi-core environments, focusing on prototypical linguistic querying scenarios. Our aim is to reveal modeling and querying tendencies – rather than absolute benchmark results – when using a relational database management system (RDBMS) and MapReduce for natural language corpus retrieval. Based on these findings, we are going to improve our approach for the efficient exploitation of very large corpora, combining advantages of state-of-the-art database systems with decomposition/parallelization strategies. Our reference implementation uses the German DeReKo reference corpus with currently more than 4 billion word forms, various multi-layer linguistic annotations, and several types of text-specific metadata. The proposed strategy is language-independent and adaptable to large-scale multilingual corpora.

Urheber*in: Schneider, Roman

Urheberrechtsschutz

Sprache: Englisch

Thema: Linguistik

Ereignis: Geistige Schöpfung

(wer): Schneider, Roman

Ereignis: Veröffentlichung

(wer): Paris : European Language Resources Association (ELRA)

(wann): 2016-04-26

URN: urn:nbn:de:bsz:mh39-48124

Letzte Aktualisierung: 06.03.20252025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Original beim Datenpartner anzeigen

Objekttyp

Konferenzbeitrag

Beteiligte

Schneider, Roman
Paris : European Language Resources Association (ELRA)

Entstanden

2016-04-26

Ähnliche Objekte (12)

Konferenzbeitrag

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

Konferenzbeitrag

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Hochschulschrift

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Hochschulschrift

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

Konferenzbeitrag

GenitivDB - a corpus-generated database for German genitive classification

Konferenzbeitrag

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Artikel

Möller, Max: Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. – Tübingen: Narr Francke Attempto, 2015. 394 S.; Ill. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache; 6) ISBN 978-3-8233-6964-6 [Rezension]

Artikel

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Buchbeitrag

Example-based querying for linguistic specialist corpora

Buchbeitrag

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Buchbeitrag

Texttechnologie und Grammatik

Konferenzbeitrag

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

Konferenzbeitrag

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Hochschulschrift

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Hochschulschrift

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

Konferenzbeitrag

GenitivDB - a corpus-generated database for German genitive classification

Konferenzbeitrag

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Artikel

Möller, Max: Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. – Tübingen: Narr Francke Attempto, 2015. 394 S.; Ill. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache; 6) ISBN 978-3-8233-6964-6 [Rezension]

Artikel

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Buchbeitrag

Example-based querying for linguistic specialist corpora

Buchbeitrag

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Buchbeitrag

Texttechnologie und Grammatik

Konferenzbeitrag

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

Konferenzbeitrag

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Hochschulschrift

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Hochschulschrift

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

Konferenzbeitrag

GenitivDB - a corpus-generated database for German genitive classification

Konferenzbeitrag

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Artikel

Möller, Max: Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. – Tübingen: Narr Francke Attempto, 2015. 394 S.; Ill. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache; 6) ISBN 978-3-8233-6964-6 [Rezension]

Artikel

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Buchbeitrag

Example-based querying for linguistic specialist corpora

Buchbeitrag

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Buchbeitrag

Texttechnologie und Grammatik

Informationen zur Registrierung von Kultur- und Wissenseinrichtungen finden Sie hier.

Felder mit * müssen ausgefüllt werden.

Benutzername*

Bitte geben Sie Ihren Benutzernamen ein

E-Mail*

Bitte geben Sie Ihre E-Mail ein

Bitte füllen Sie dieses Feld nicht aus

Vorname

Nachname

Passwort*

Bitte geben Sie Ihr Passwort ein

Passwort bestätigen*

Bitte geben Sie das gleiche Passwort ein

Ich habe die Nutzungsbedingungen und die Datenschutzerklärung zur Erhebung persönlicher Daten gelesen und stimme ihnen zu. *

Dieses Feld ist ein Pflichtfeld.

Ich möchte den Newsletter der Deutschen Digitalen Bibliothek abonnieren. Siehe Informationen zum Newsletter-Abonnement.

Benutzerkonto angelegt

Ihr „Meine DDB“-Konto wurde erfolgreich angelegt. Bevor Sie sich in Ihrem Konto anmelden können, müssen Sie auf den Bestätigungslink in der Nachricht klicken, die wir gerade an die von Ihnen angegebene E-Mail-Adresse geschickt haben

Evaluating DBMS-based Access Strategies to Very Large Multi-layer Corpora

Download

Angaben zum Objekt

Klassifikation und Themen

Beteiligte, Orts- und Zeitangaben

Weitere Informationen

Datenpartner

Objekttyp

Beteiligte

Entstanden

Ähnliche Objekte (12)

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

GenitivDB - a corpus-generated database for German genitive classification

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Möller, Max: Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. – Tübingen: Narr Francke Attempto, 2015. 394 S.; Ill. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache; 6) ISBN 978-3-8233-6964-6 [Rezension]

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Example-based querying for linguistic specialist corpora

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Texttechnologie und Grammatik

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

GenitivDB - a corpus-generated database for German genitive classification

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Möller, Max: Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. – Tübingen: Narr Francke Attempto, 2015. 394 S.; Ill. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache; 6) ISBN 978-3-8233-6964-6 [Rezension]

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Example-based querying for linguistic specialist corpora

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Texttechnologie und Grammatik

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

GenitivDB - a corpus-generated database for German genitive classification

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Möller, Max: Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. – Tübingen: Narr Francke Attempto, 2015. 394 S.; Ill. (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache; 6) ISBN 978-3-8233-6964-6 [Rezension]

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Example-based querying for linguistic specialist corpora

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Texttechnologie und Grammatik

Verbundene Objekte

Passwort zurücksetzen