Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

DTA-Nachrichten vom 3. Februar 2017

Dokumente aus dem Deutschen Textarchiv sind nun mit den Voyant Tools analysierbar

Voyant Tools Logo Ab sofort bietet das Deutsche Textarchiv (DTA) seinen Nutzerinnen und Nutzern die Möglichkeit, jeden DTA-Text mit den von Stéfan Sinclair und Geoffrey Rockwell entwickelten Voyant Tools[1] zu analysieren. Somit lässt sich beispielsweise Theodor Fontanes Roman „Effi Briest“ (1896) nun mit Hilfe der verschiedenen in Voyant Tools bereitgestellten Ansichten erkunden – z. B. hier in der unten erläuterten normalisierten Fassung:

Die XML-Volltexte aus dem DTA werden eigens zu diesem Zweck und ohne weiteren nutzerseitigen Aufwand präprozessiert, um eine nahtlose Verwendung und optimale Analyseergebnisse gewährleisten zu können. Zur Analyse mit Voyant stellt das Deutsche Textarchiv drei spezielle XML-Fassungen zur Verfügung:

  1. Eine zeichennormierte Fassung (unicruftxml): Diese XML-Fassung bietet Ihnen den Text in transliterierter Orthographie, d. h. in einer Fassung, in der alle Zeichen, die außerhalb der Latin-1-Kodierung (ISO/IEC 8859-1) liegen, durch Zeichen innerhalb von Latin-1 approximiert werden. Damit sind Probleme bei der Voyant-seitigen Behandlung von Zeichen wie dem 'langen' s (ſ , U+017F) oder dem hochgestellen 'e' (U+0364) zur Kennzeichnung von Umlauten ausgeschlossen. Abgesehen davon bleiben die Graphie der Vorlage und auch die Silbentrennung am Seiten- und Zeilenende erhalten.
    Beispieldatei: https://www.deutschestextarchiv.de/book/download_unicruftxml/fontane_briest_1896.
  2. Eine hinsichtlich der Schreibweisen normierte Fassung (normxml): Diese XML-Fassung bietet Ihnen den Text ebenfalls Latin-1-approximiert (siehe 1.) und zusätzlich in normalisierter Orthographie, d. h. aufgrund der automatischen linguistischen Analyse der historischen Wortformen mit CAB (Cascaded Analysis Broker). Historische Schreibweisen, beispielsweise "Erkaͤndtnuß" und "weißheyt" werden in ihr modernes Äquivalent, "Erkenntnis" und "Weisheit", überführt. In diesem Zuge wird auch die Silbentrennung am Seiten- und Zeilenumbruch aufgelöst.
    Beispieldatei: https://www.deutschestextarchiv.de/book/download_normxml/fontane_briest_1896.
  3. Eine lemmatisierte Fassung (lemmaxml): Diese XML-Fassung bietet Ihnen den Text ebenfalls zeichennormiert und in modernisierter Orthographie (siehe 1. und 2.), zusätzlich dazu wird der Text jedoch lemmatisiert wiedergegeben. Bei der Lemmatisierung werden die einzelnen Token auf ihre Grundform (Lemma) zurückgeführt. Beispielsweise wird das flektierte Verb "sahen" auf seine Grundform im Singular Präsens, "sehen", abgebildet. Unbestimmte Artikel wie "ein", "einer", "eine" werden einheitlich auf das Lemma "eine", bestimmte Artikel wie "der", "die" oder "das" zu "d" lemmatisiert usw.
    Beispieldatei: https://www.deutschestextarchiv.de/book/download_lemmaxml/fontane_briest_1896.

Die Verbindung des Deutschen Textarchivs mit Voyant ist im Menü zu jedem DTA-Text unter "Ansichten" zu finden. Dabei kann zwischen den oben beschriebenen drei Varianten gewählt werden.

[1] Ausführliche Informationen zur Nutzung des Voyant-Tools finden Sie in der Dokumentation dieses Werkzeuges.

[2] Alle angebotenen XML-Fassungen beruhen auf dem DTA-Basisformat (DTABf) und entsprechen demgemäß den Richtlinien der Text Encoding Initiative (TEI). Jedem Text wurde im TEI-Header ein Zitationshinweis sowie eine kurz gefasste Erläuterung zur Erzeugung der jeweiligen Fassung hinzugefügt. Die XML-Fassungen werden vollautomatisch erstellt und können aufgrund dessen, insbesondere bei der Analyse historischer Schreibweisen und der Lemmatisierung, auch Fehler enthalten. Die XML-Fassungen werden bei jedem Abruf eigens erzeugt, weshalb zu unterschiedlichen Zeitpunkten erzeugte Fassungen voneinander abweichen können.

von Christian Thomas, 3. Februar 2017

  NODES