DWDS dlexDB CLARIN-D

DTA-Leitlinien

Inhaltsverzeichnis dieses Dokuments

1 Vorbemerkung
2 Auswahl der Vorlagen zur Bild- und Volltextdigitalisierung
- 2.1 Auswahl der zugrunde gelegten Ausgabe
- 2.2 Zur Digitalisierung herangezogenes Exemplar
3 Verfahren der Texterfassung – Double Keying vs. Optical Character Recognition (OCR)
- 3.1 Double Keying
- 3.2 Optical Character Recognition (OCR)
4 Richtlinien der Texterfassung
5 Präsentation der Bilddigitalisate und der elektronischen Volltexte auf der Webseite des DTA

1 Vorbemerkung

Ziel des Deutschen Textarchivs (DTA) ist die Erstellung eines disziplinenübergreifenden Volltextkorpus deutschsprachiger Texte. Grundlage hierfür bilden digitale Faksimiles historischer Druckwerke (Entstehungszeit der Drucke zwischen ca. 1600 und 1900). Das Korpus umfasst Werke verschiedener Textsorten, literarischer Gattungen und wissenschaftlicher Disziplinen. Ziel des Projekts ist die Bereitstellung und – aufgrund der großen Textmenge weitestgehend automatische – linguistische Aufbereitung eines vielseitigen, umfangreichen Textbestandes auf dieser heterogenen Grundlage.

Die Gesamtheit der elektronischen Volltexte auf der Webseite des DTA soll als historisches Referenzkorpus der deutschen Sprache vom 17. bis zum 19. Jahrhundert zur Verfügung stehen. Die Textgestalt entspricht mit wenigen Ausnahmen der Vorlage (siehe DTA-Richtlinien zur Texterfassung). Eine umfassende, textkritische Bearbeitung und Kommentierung der einzelnen Werke im Bestand des DTA wird nicht angestrebt. Die entsprechend dem DTA-Basisformat kodierten Volltexte können aber durchaus Ausgangspunkt editorischer Vorhaben sein.

Die folgenden Ausführungen beschreiben die wichtigsten Prinzipien, die bei der Auswahl der Vorlagen zur Bild- und Volltextdigitalisierung, bei der Texterfassung sowie für die Anzeige der Bilddigitalisate und Volltexte auf der Webseite des DTA befolgt wurden bzw. werden.

2 Auswahl der Vorlagen zur Bild- und Volltextdigitalisierung

Die Auswahl der bei der Bild- und Volltextdigitalisierung zugrunde gelegten Werke erfolgte in erster Linie unter sprachwissenschaftlich-lexikographischen Gesichtspunkten. In der Projektlaufzeit werden mehr als 1.000 bedeutende, in deutscher Sprache erschienene Werke in 1.300 Bänden digitalisiert (siehe auch die Erläuterungen zur Textauswahl im DTA).

Für das DTA werden in erster Linie originär deutschsprachige Werke herangezogen. Hinzu kommen deutsche Übersetzungen von Werken, die von großem Einfluss insbesondere auf den deutschsprachigen Kulturraum waren. Sie sind von hohem sprachgeschichtlichem Interesse und daher selbstverständlich im DTA-Bestand vertreten.

2.1 Auswahl der zugrunde gelegten Ausgabe

Um den historischen Sprachstand möglichst unverfälscht zu erfassen, werden zur Digitalisierung die in deutscher Sprache erschienenen Erstausgaben der jeweiligen Werke herangezogen, d. h. die erste gedruckte, selbstständige Publikation eines Textes.

Von diesem Prinzip wird abgewichen, wenn eine seltene Erstausgabe eines bestimmten Werks aus konservatorischen Gründen nicht digitalisiert werden konnte.

Ferner kann in einigen Fällen die Erstausgabe nicht mit Sicherheit ermittelt werden, beispielsweise bei Doppel- und Zwitterdrucken, Presskorrekturen und ähnlichen Phänomenen. In solchen Fällen wird ein mit vertretbarem Aufwand erreichbares Exemplar digitalisiert und für den Nutzer möglichst genau und nachvollziehbar innerhalb der Überlieferung identifiziert.

Moderne wissenschaftliche Editionen werden im DTA nicht als Textgrundlage herangezogen, da diese je nach Editionskriterien geringere oder stärkere Normalisierungen an den Texten vornehmen. Solche Normalisierungen verändern die historische Textgestalt, die jedoch zum Zwecke sprachhistorischer (etwa auch orthographiegeschichtlicher) Forschung im DTA möglichst uneingeschränkt erhalten bleiben soll.

Wird eine spätere Auflage von der Forschung als maßgebliche Fassung des betreffenden Werks angesehen – z. B. eine vom Autor/von der Autorin überarbeitete und vermehrte Ausgabe oder eine Ausgabe letzter Hand –, so kann diese herangezogen werden.

Nicht-selbstständige Publikationen werden herangezogen, wenn einflussreiche Texte zuerst (oder ausschließlich) als solche erschienen sind.

2.2 Zur Digitalisierung herangezogenes Exemplar

Bei der Auswahl der Exemplare für die Digitalisierung wird Wert auf die Identifikation der Erst- bzw. einschlägigen Ausgaben gelegt. Abhängig vom Zustand der Vorlage und den voraussichtlichen Kosten für deren Digitalisierung wird das aus Projektsicht bestmögliche Exemplar ausgewählt.

Die bibliographischen Metadaten zu jedem zur Digitalisierung herangezogenen Band sind auf der DTA-Webseite und über einen Link zum Katalog der jeweiligen besitzenden Bibliothek verfügbar. Die Bilddigitalisate des Exemplars und der elektronische Volltext erhalten jeweils spezifische Metadatensätze.

3 Verfahren der Texterfassung – Double Keying vs. Optical Character Recognition (OCR)

Die zur Digitalisierung ausgewählten Texte werden in der Mehrzahl durch einen Dienstleister im sogenannten Double Keying-Verfahren (doppelte Texterfassung mit nachträglichem Vergleich der Fassungen hinsichtlich eventueller Abweichungen) erstellt. Einige einfach strukturierte Texte (des Zeitraums 1780–1900) wurden per Optical Character Recognition (OCR) mit manueller Nachkorrektur erfasst.

Für beide Verfahren der Texterfassung werden die Texte anhand der Bilddigitalisate vorstrukturiert (siehe Makrostrukturierung der Bilddigitalisate (ZOT)). Im Anschluss an die Texterfassung erfolgt jeweils eine manuelle Nachkorrektur. Hinsichtlich der Erfassungsgenauigkeit und auch in Hinblick auf die Verwendung einzelner Tags bei der Texterfassung und -kodierung unterscheiden sich beide Verfahren. Mit Hilfe welches Verfahrens der jeweilige Volltext erstellt wurde, ist für jedes Exemplar in den Metadaten vermerkt.

3.1 Double Keying

Die Texterfassung im Double Keying-Verfahren erfolgt zeichenweise in Verbindung mit den Informationen aus der Vorstrukturierung. Für die Auszeichnung gilt das Prinzip „Struktur vor Typographie“, d. h. die Annotation erfolgt nach Möglichkeit hinsichtlich semantisch-strukturierender Merkmale und weicht von diesem Verfahren nur dann ab, wenn die Struktur einer Textpassage nicht deutlich erkennbar ist. So werden etwa Kustoden als solche gekennzeichnet, jedoch nicht zusätzlich mit dem Merkmal „rechtsbündig“ versehen, da dieses Merkmal jeder Kustode eigen ist. Auch Überschriften werden als solche ausgezeichnet. Die typographischen Informationen, die in der Vorlage der zur Hervorhebung als Überschrift dienen, werden hingegen nur begrenzt erfasst.

3.2 Optical Character Recognition (OCR)

Für OCR-Texte konnten aufgrund des nicht-manuellen Verfahrens strukturelle nicht immer klar von rein typographischen Merkmalen unterschieden werden. Daher kommt es häufiger zu Kodierungen sowohl struktureller als auch typographischer Besonderheiten bzw. zu rein typographischen Beschreibungen.

4 Richtlinien der Texterfassung

Die Texterfassung folgt, gemäß dem sprachwissenschaftlich-lexikographischen Fokus des DTA, dem Prinzip größtmöglicher Bewahrung des ursprünglichen und unverfälschten Sprachstandes der Vorlage. „Stillschweigende“ Normalisierungen hinsichtlich der Schreibweise erfolgen nicht.

Somit entsteht im DTA aus editorischer Sicht lediglich ein Grundtext, der eine verlässliche Abschrift der jeweiligen Vorlage darstellt. Dieser Volltext kann jedoch die Grundlage für die editorische Aufbereitung des Textes bilden.

Zur ausführlichen Dokumentation der DTA-Richtlinien zur Texterfassung.

5 Präsentation der Bilddigitalisate und der elektronischen Volltexte auf der Webseite des DTA

Das Hauptaugenmerk des DTA liegt auf der Erfassung der lexikalisch relevanten Informationen sowie der Textstruktur gemäß dem DTA-Basisformat anhand der digitalen Fassung der Vorlage. Die Präsentation des Textes auf der Webseite des DTA, insbesondere in der HTML-Ansicht, ist davon zu unterscheiden. Bei ihr handelt es sich um eine lesefreundliche Darstellung; sie ist gegenüber der XML-Repräsentation nachrangig.

Die Anzeige der einzelnen Texte auf der Website des DTA ist mit Blick auf die Vielfalt der Vorlagen im Korpus vereinheitlicht worden. Eine ‚diplomatische‛ Wiedergabe des Druckbildes jedes einzelnen Werks wird nicht angestrebt. Die während der Texterfassung bewahrte Makro- und Mikrostruktur der Druckwerke wird schematisiert wiedergegeben. Elemente wie Überschriften, Seitenzahlen, Bogensignaturen, Kustoden usw., deren graphische Umsetzung im Druck zum Teil stark variiert, erhalten ein einheitliches Erscheinungsbild. Auf diese Weise kann die Vielfalt der Vorlagen mit ihren jeweiligen typographischen, strukturellen und druckspezifischen Eigenheiten als relativ homogenes, titelübergreifend erschlossenes Volltextkorpus präsentiert werden.

In der Lesefassung der DTA-Texte können einige der erfassten Merkmale des Volltextes aus der Anzeige ausgenommen werden. Somit wird dem Benutzer etwa die Entscheidung überlassen, ob Zeilenumbrüche angezeigt werden, ob die in den Vorlagen oft mit übergeschriebenem „e“ dargestellten Umlaute in normalisierter Form angezeigt werden sollen und ob die Unterscheidung zwischen „langem“ s (Schaft-s) und „rundem“ s aufgehoben werden soll.

Stand dieser Seite: Tue Apr 30 12:13:18 2013

Alle Inhalte dieser Seite unterstehen, soweit nicht anders gekennzeichnet, einer Creative-Commons-Lizenz. Die Rechte an den angezeigten Bilddigitalisaten, soweit nicht anders gekennzeichnet, liegen bei den besitzenden Bibliotheken. Weitere Informationen finden Sie in den DTA-Nutzungsbedingungen.

Insbesondere im Hinblick auf die §§ 86a StGB und 130 StGB wird festgestellt, dass die auf diesen Seiten abgebildeten Inhalte weder in irgendeiner Form propagandistischen Zwecken dienen, oder Werbung für verbotene Organisationen oder Vereinigungen darstellen, oder nationalsozialistische Verbrechen leugnen oder verharmlosen, noch zum Zwecke der Herabwürdigung der Menschenwürde gezeigt werden. Die auf diesen Seiten abgebildeten Inhalte (in Wort und Bild) dienen im Sinne des § 86 StGB Abs. 3 ausschließlich historischen, sozial- oder kulturwissenschaftlichen Forschungszwecken. Ihre Veröffentlichung erfolgt in der Absicht, Wissen zur Anregung der intellektuellen Selbstständigkeit und Verantwortungsbereitschaft des Staatsbürgers zu vermitteln und damit der Förderung seiner Mündigkeit zu dienen.

2007–2024 Deutsches Textarchiv, Berlin-Brandenburgische Akademie der Wissenschaften. Kontakt: redaktion(at)deutschestextarchiv.de.

Zitierempfehlung: Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2024. URL: https://www.deutschestextarchiv.de/.