Deutsches Textarchiv

Korpus der neuhochdeutschen Sprache

Das Deutsche Textarchiv (DTA) ist ein seit Juli 2007 an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimatetes und im Zeitraum von 2007 bis 2017 von der Deutschen Forschungsgemeinschaft gefördertes[1] wissenschaftliches digitales Textarchiv. Das Deutsche Textarchiv hat es sich zur Aufgabe gemacht, eine disziplinübergreifende Auswahl deutschsprachiger Texte aus der Zeit um 1600 bis 1900 auf Grundlage von Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen.

Logo Deutsches Textarchiv

Struktur und Aufbau

Bearbeiten

Erklärtes Ziel des Deutschen Textarchives war es, dem Nutzer eine repräsentative und disziplinübergreifende Auswahl digitalisierter deutschsprachiger Texte zur Verfügung zu stellen. Neben kanonbildenden literarischen Werken legte die Konzeption des Deutschen Textarchives einen Schwerpunkt auf weniger bekannte und insbesondere auch nicht-literarische Texte. Um eine repräsentative Auswahl der Werke zu gewährleisten, griff das Deutsche Textarchiv auf eine auf der Grundlage von Bibliographien erstellte eigene Auswahlliste zurück. Das Archiv enthält zudem einen großen Teil des Textkorpus des ebenfalls an der Akademie beheimateten Deutschen Wörterbuchs („Grimmsches Wörterbuch“). In einem letzten Schritt bat man die interdisziplinären Mitglieder der Berlin-Brandenburgischen Akademie der Wissenschaften, die nun erstellte Liste zu bewerten und aus ihrer fachlichen Perspektive fehlende Werke vorzuschlagen.

Unter der Leitung des Germanisten und Psycholinguisten Wolfgang Klein arbeitete im Deutschen Textarchiv an Aufbau und Pflege des Bestandes ein interdisziplinäres Team aus Buch- und Informationswissenschaftlern, Germanisten, Computerlinguisten und Informatikern sowie eine Reihe von studentischen Hilfskräften.

Technische Realisierung

Bearbeiten

Bei der Digitalisierung des Bestandes arbeitete das DTA mit zahlreichen wissenschaftlichen Institutionen und Bibliotheken zusammen, die entsprechende Exemplare aus ihren Beständen zur Digitalisierung zur Verfügung stellten. Seit dem Beginn des Bestandsaufbaus wurden circa 540.000 Bilddigitalisate mit einem Datenvolumen von insgesamt knapp zehn Terabyte angefertigt. Diese Digitalisate bildeten die Basis für die Erstellung der Volltexte. Je nach Qualität und Komplexität der Vorlagen wurden die Texte entweder durch eine Texterkennungssoftware (OCR) erfasst und nachkorrigiert oder durch einen externen Partner im Double-Keying-Verfahren erfasst. In einem letzten Schritt wurden die Texte sprachwissenschaftlich mit computerlinguistischen Hilfsmitteln indiziert.

Im Projekt wurden zudem Texte mit den entsprechenden Bildvorlagen aus weiteren Quellen und Beständen kuratiert und als Ergänzungskorpora[2] (DTA-Erweiterungen, DTAE) im Umfang von ca. 600.000 Seiten aufgenommen.

Die Texte stehen sowohl im HTML-Format als auch in einem TEI-P5-Format zum Download zur Verfügung. Ab Juli 2020 gilt für das DTA-Kernkorpus und weitere Texte aus den DTA-Erweiterungen (DTAE) die freie Creative-Commons-Lizenz CC BY-SA 4.0.[3]

Perspektiven

Bearbeiten

Das Deutsche Textarchiv dient im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) im Konsortium Text+ als Repositorium für strukturierte, historische Texte. Zusätzlich zur eigenen Projektwebseite sind alle Textkorpora auch über die Korpusrecherche im Digitalen Wörterbuch der deutschen Sprache (DWDS) abfragbar[4][5].

Die Digitalisierung im Deutschen Textarchiv eröffnet neben sprach- und literaturwissenschaftlichen Untersuchungsmöglichkeiten auch buch- und kommunikationswissenschaftliche Forschungsperspektiven, wie beispielsweise Forschungen zur Typographie- und Verlagsgeschichte.

Einzelnachweise

Bearbeiten
  1. DFG - GEPRIS - Deutsches Textarchiv (DTA) - Aufbau eines Aktiven Archivs deutscher Texte und Entwicklung entsprechender Werkzeuge. Abgerufen am 22. November 2024.
  2. Deutsches Textarchiv – Textquellen. Abgerufen am 22. November 2024.
  3. Deutsches Textarchiv – Nutzungsbedingungen. Abgerufen am 10. April 2022.
  4. DTA-Kernkorpus (1598–1913). 14. August 2024, abgerufen am 22. November 2024.
  5. DTA-Erweiterungen (1465–1969). 7. August 2024, abgerufen am 22. November 2024.
Bearbeiten
  NODES
punk 1