Konferenzbeitrag

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

This article describes a series of ongoing efforts at the Stanford Literary Lab to manage a large collection of literary corpora (~40 billion words). This work is marked by a tension between two competing requirements – the corpora need to be merged together into higher-order collections that can be analyzed as units; but, at the same time, it’s also necessary to preserve granular access to the original metadata and relational organization of each individual corpus. We describe a set of data management practices that try to accommodate both of these requirements – Apache Spark is used to index data as Parquet tables on an HPC cluster at Stanford. Crucially, the approach distinguishes between what we call “canonical” and “combined” corpora, a variation on the well-established notion of a “virtual corpus” (Kupietz et al., 2014; Jakubíek et al., 2014; van Uytvanck, 2010).

Urheber*in: McClure, David; Algee-Hewitt, Mark; Douris, Steele; Fredner, Erik; Walser, Hannah

Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0 International

Sprache: Englisch

Thema: Korpus <Linguistik>
Englisch
Texttechnologie
Datenmanagement
Metadaten
Sprache

Ereignis: Geistige Schöpfung

(wer): McClure, David
Algee-Hewitt, Mark
Douris, Steele
Fredner, Erik
Walser, Hannah

Ereignis: Veröffentlichung

(wer): Mannheim : Institut für Deutsche Sprache

(wann): 2017-07-05

URN: urn:nbn:de:bsz:mh39-62617

Letzte Aktualisierung: 06.03.2025, 09:00 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Leibniz-Institut für Deutsche Sprache - Bibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Original beim Datenpartner anzeigen

Objekttyp

Konferenzbeitrag

Beteiligte

McClure, David
Algee-Hewitt, Mark
Douris, Steele
Fredner, Erik
Walser, Hannah
Mannheim : Institut für Deutsche Sprache

Entstanden

2017-07-05

Ähnliche Objekte (12)

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Druckgraphik

Simplicity

Druckgraphik

Simplicity

Grafik

Sweet simplicity

Bilderbogen

Calino's simplicity.

Grafik

Sweet simplicity

zweidimensionales bewegtes Bild

Seeking Simplicity

Simplicity Nähbuch

Balancing control and simplicity: a variable aggregation method in intensity modulated radiation therapy planning

Artikel

Simplicity in complexity

Noten (Musik)

Simplicity : for flute

Minimalism : Designing Simplicity

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Druckgraphik

Simplicity

Druckgraphik

Simplicity

Grafik

Sweet simplicity

Bilderbogen

Calino's simplicity.

Grafik

Sweet simplicity

zweidimensionales bewegtes Bild

Seeking Simplicity

Simplicity Nähbuch

Balancing control and simplicity: a variable aggregation method in intensity modulated radiation therapy planning

Artikel

Simplicity in complexity

Noten (Musik)

Simplicity : for flute

Minimalism : Designing Simplicity

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Druckgraphik

Simplicity

Druckgraphik

Simplicity

Grafik

Sweet simplicity

Bilderbogen

Calino's simplicity.

Grafik

Sweet simplicity

zweidimensionales bewegtes Bild

Seeking Simplicity

Simplicity Nähbuch

Balancing control and simplicity: a variable aggregation method in intensity modulated radiation therapy planning

Artikel

Simplicity in complexity

Noten (Musik)

Simplicity : for flute

Minimalism : Designing Simplicity

Informationen zur Registrierung von Kultur- und Wissenseinrichtungen finden Sie hier.

Felder mit * müssen ausgefüllt werden.

Benutzername*

Bitte geben Sie Ihren Benutzernamen ein

E-Mail*

Bitte geben Sie Ihre E-Mail ein

Bitte füllen Sie dieses Feld nicht aus

Vorname

Nachname

Passwort*

Bitte geben Sie Ihr Passwort ein

Passwort bestätigen*

Bitte geben Sie das gleiche Passwort ein

Ich habe die Nutzungsbedingungen und die Datenschutzerklärung zur Erhebung persönlicher Daten gelesen und stimme ihnen zu. *

Dieses Feld ist ein Pflichtfeld.

Ich möchte den Newsletter der Deutschen Digitalen Bibliothek abonnieren. Siehe Informationen zum Newsletter-Abonnement.

Benutzerkonto angelegt

Ihr „Meine DDB“-Konto wurde erfolgreich angelegt. Bevor Sie sich in Ihrem Konto anmelden können, müssen Sie auf den Bestätigungslink in der Nachricht klicken, die wir gerade an die von Ihnen angegebene E-Mail-Adresse geschickt haben

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Download

Angaben zum Objekt

Klassifikation und Themen

Beteiligte, Orts- und Zeitangaben

Weitere Informationen

Datenpartner

Objekttyp

Beteiligte

Entstanden

Ähnliche Objekte (12)

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Simplicity

Simplicity

Sweet simplicity

Calino's simplicity.

Sweet simplicity

Seeking Simplicity

Simplicity Nähbuch

Balancing control and simplicity: a variable aggregation method in intensity modulated radiation therapy planning

Simplicity in complexity

Simplicity : for flute

Minimalism : Designing Simplicity

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Simplicity

Simplicity

Sweet simplicity

Calino's simplicity.

Sweet simplicity

Seeking Simplicity

Simplicity Nähbuch

Balancing control and simplicity: a variable aggregation method in intensity modulated radiation therapy planning

Simplicity in complexity

Simplicity : for flute

Minimalism : Designing Simplicity

Organizing corpora at the Stanford Literary Lab. Balancing simplicity and flexibility in metadata management

Simplicity

Simplicity

Sweet simplicity

Calino's simplicity.

Sweet simplicity

Seeking Simplicity

Simplicity Nähbuch

Balancing control and simplicity: a variable aggregation method in intensity modulated radiation therapy planning

Simplicity in complexity

Simplicity : for flute

Minimalism : Designing Simplicity

Verbundene Objekte

Passwort zurücksetzen