DWDS dlexDB CLARIN-D

DTA-Nachrichten vom 3. Februar 2017

Dokumente aus dem Deutschen Textarchiv sind nun mit den Voyant Tools analysierbar

Ab sofort bietet das Deutsche Textarchiv (DTA) seinen Nutzerinnen und Nutzern die Möglichkeit, jeden DTA-Text mit den von Stéfan Sinclair und Geoffrey Rockwell entwickelten Voyant Tools[1] zu analysieren. Somit lässt sich beispielsweise Theodor Fontanes Roman „Effi Briest“ (1896) nun mit Hilfe der verschiedenen in Voyant Tools bereitgestellten Ansichten erkunden – z. B. hier in der unten erläuterten normalisierten Fassung:

Die XML-Volltexte aus dem DTA werden eigens zu diesem Zweck und ohne weiteren nutzerseitigen Aufwand präprozessiert, um eine nahtlose Verwendung und optimale Analyseergebnisse gewährleisten zu können. Zur Analyse mit Voyant stellt das Deutsche Textarchiv drei spezielle XML-Fassungen zur Verfügung:

Eine zeichennormierte Fassung (unicruftxml): Diese XML-Fassung bietet Ihnen den Text in transliterierter Orthographie, d. h. in einer Fassung, in der alle Zeichen, die außerhalb der Latin-1-Kodierung (ISO/IEC 8859-1) liegen, durch Zeichen innerhalb von Latin-1 approximiert werden. Damit sind Probleme bei der Voyant-seitigen Behandlung von Zeichen wie dem 'langen' s (ſ , U+017F) oder dem hochgestellen 'e' (U+0364) zur Kennzeichnung von Umlauten ausgeschlossen. Abgesehen davon bleiben die Graphie der Vorlage und auch die Silbentrennung am Seiten- und Zeilenende erhalten.
Beispieldatei: https://www.deutschestextarchiv.de/book/download_unicruftxml/fontane_briest_1896.
Eine hinsichtlich der Schreibweisen normierte Fassung (normxml): Diese XML-Fassung bietet Ihnen den Text ebenfalls Latin-1-approximiert (siehe 1.) und zusätzlich in normalisierter Orthographie, d. h. aufgrund der automatischen linguistischen Analyse der historischen Wortformen mit CAB (Cascaded Analysis Broker). Historische Schreibweisen, beispielsweise "Erkaͤndtnuß" und "weißheyt" werden in ihr modernes Äquivalent, "Erkenntnis" und "Weisheit", überführt. In diesem Zuge wird auch die Silbentrennung am Seiten- und Zeilenumbruch aufgelöst.
Beispieldatei: https://www.deutschestextarchiv.de/book/download_normxml/fontane_briest_1896.
Eine lemmatisierte Fassung (lemmaxml): Diese XML-Fassung bietet Ihnen den Text ebenfalls zeichennormiert und in modernisierter Orthographie (siehe 1. und 2.), zusätzlich dazu wird der Text jedoch lemmatisiert wiedergegeben. Bei der Lemmatisierung werden die einzelnen Token auf ihre Grundform (Lemma) zurückgeführt. Beispielsweise wird das flektierte Verb "sahen" auf seine Grundform im Singular Präsens, "sehen", abgebildet. Unbestimmte Artikel wie "ein", "einer", "eine" werden einheitlich auf das Lemma "eine", bestimmte Artikel wie "der", "die" oder "das" zu "d" lemmatisiert usw.
Beispieldatei: https://www.deutschestextarchiv.de/book/download_lemmaxml/fontane_briest_1896.

Die Verbindung des Deutschen Textarchivs mit Voyant ist im Menü zu jedem DTA-Text unter "Ansichten" zu finden. Dabei kann zwischen den oben beschriebenen drei Varianten gewählt werden.

[1] Ausführliche Informationen zur Nutzung des Voyant-Tools finden Sie in der Dokumentation dieses Werkzeuges.

[2] Alle angebotenen XML-Fassungen beruhen auf dem DTA-Basisformat (DTABf) und entsprechen demgemäß den Richtlinien der Text Encoding Initiative (TEI). Jedem Text wurde im TEI-Header ein Zitationshinweis sowie eine kurz gefasste Erläuterung zur Erzeugung der jeweiligen Fassung hinzugefügt. Die XML-Fassungen werden vollautomatisch erstellt und können aufgrund dessen, insbesondere bei der Analyse historischer Schreibweisen und der Lemmatisierung, auch Fehler enthalten. Die XML-Fassungen werden bei jedem Abruf eigens erzeugt, weshalb zu unterschiedlichen Zeitpunkten erzeugte Fassungen voneinander abweichen können.

von Christian Thomas, 3. Februar 2017

Alle Inhalte dieser Seite unterstehen, soweit nicht anders gekennzeichnet, einer Creative-Commons-Lizenz. Die Rechte an den angezeigten Bilddigitalisaten, soweit nicht anders gekennzeichnet, liegen bei den besitzenden Bibliotheken. Weitere Informationen finden Sie in den DTA-Nutzungsbedingungen.

Insbesondere im Hinblick auf die §§ 86a StGB und 130 StGB wird festgestellt, dass die auf diesen Seiten abgebildeten Inhalte weder in irgendeiner Form propagandistischen Zwecken dienen, oder Werbung für verbotene Organisationen oder Vereinigungen darstellen, oder nationalsozialistische Verbrechen leugnen oder verharmlosen, noch zum Zwecke der Herabwürdigung der Menschenwürde gezeigt werden. Die auf diesen Seiten abgebildeten Inhalte (in Wort und Bild) dienen im Sinne des § 86 StGB Abs. 3 ausschließlich historischen, sozial- oder kulturwissenschaftlichen Forschungszwecken. Ihre Veröffentlichung erfolgt in der Absicht, Wissen zur Anregung der intellektuellen Selbstständigkeit und Verantwortungsbereitschaft des Staatsbürgers zu vermitteln und damit der Förderung seiner Mündigkeit zu dienen.

2007–2024 Deutsches Textarchiv, Berlin-Brandenburgische Akademie der Wissenschaften. Kontakt: redaktion(at)deutschestextarchiv.de.

Zitierempfehlung: Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2024. URL: https://www.deutschestextarchiv.de/.