Deutsches Textarchiv - LinkFang.de





Deutsches Textarchiv


Das Deutsche Textarchiv (DTA) ist ein seit Juli 2007 an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimatetes und von der Deutschen Forschungsgemeinschaft gefördertes wissenschaftliches digitales Textarchiv. Das Deutsche Textarchiv hat es sich zur Aufgabe gemacht, eine disziplinübergreifende Auswahl deutschsprachiger Texte aus der Zeit um 1600 bis 1900 auf Grundlage von Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen.

Struktur und Aufbau des Archivs

Erklärtes Ziel des Deutschen Textarchives ist es, dem Nutzer eine repräsentative und disziplinübergreifende Auswahl digitalisierter deutschsprachiger Texte zur Verfügung zu stellen. Neben kanonbildenden literarischen Werken legt die Konzeption des Deutschen Textarchives einen Schwerpunkt auf weniger bekannte und insbesondere auch nicht-literarische Texte. Um eine repräsentative Auswahl der Werke zu gewährleisten, greift das Deutsche Textarchiv auf eine auf der Grundlage von Bibliographien erstellte eigene Auswahlliste zurück. Das Archiv wird zudem einen großen Teil des Textkorpus des ebenfalls an der Akademie beheimateten Deutschen Wörterbuchs („Grimmsches Wörterbuch“) enthalten. In einem letzten Schritt bat man die interdisziplinären Mitglieder der Berlin-Brandenburgischen Akademie der Wissenschaften, die nun erstellte Liste zu bewerten und aus ihrer fachlichen Perspektive fehlende Werke vorzuschlagen.

Unter der Leitung des Germanisten und Psycholinguisten Wolfgang Klein arbeitet im Deutschen Textarchiv an Aufbau und Pflege des Bestandes ein interdisziplinäres Team aus Buch- und Informationswissenschaftlern, Germanisten, Computerlinguisten und Informatikern sowie eine Reihe von studentischen Hilfskräften.

Technische Realisierung

Bei der Digitalisierung des Bestandes arbeitet das DTA mit zahlreichen wissenschaftlichen Institutionen und Bibliotheken zusammen, die entsprechende Exemplare aus ihren Beständen zur Digitalisierung zur Verfügung stellen. Seit dem Beginn des Bestandsaufbaus wurden circa 600.000 Bilddigitalisate mit einem Datenvolumen von insgesamt knapp zehn Terabyte angefertigt. Diese Digitalisate bilden die Basis für die Erstellung der Volltexte. Je nach Qualität und Komplexität der Vorlagen werden die Texte entweder durch eine selbst entwickelte Texterkennungssoftware (OCR) erfasst und nachkorrigiert oder durch einen externen Partner im Double-Keying-Verfahren erfasst. In einem letzten Schritt werden die Texte sprachwissenschaftlich mit computerlinguistischen Hilfsmitteln indiziert.

Die Texte stehen sowohl im HTML-Format als auch in einem TEI-P5-Format zum Download zur Verfügung. Obwohl es sich um gemeinfreie Texte handelt, die frei verwendbar sind und eine reine Transkription vorliegt, suggeriert die Lizenzierung der Volltexte unter der CC-BY-NC-Lizenz, die kommerzielle Verwendungen ausschließt, das Bestehen von Urheberrechten (siehe Copyfraud).

Perspektiven

Für eine spätere Projektphase hat sich das Deutsche Textarchiv vorgenommen, den Bestand zu einem aktiven Archiv zu entwickeln. So sollen eine private Textauswahl, das Setzen persistenter Lesezeichen auf Textpassagen und das Hinzufügen von Annotationen für den Benutzer möglich sein. Sollten die personellen und technischen Voraussetzungen in der Zukunft vorhanden sein, hat man sich das Ziel gesetzt, registrierten Nutzern die Berechtigung einzuräumen, auf der Grundlage der Richtlinien des Archivs, eigenständig Texte in das DTA zu integrieren.

Die Digitalisierung im Deutschen Textarchiv eröffnet neben sprach- und literaturwissenschaftlichen Untersuchungsmöglichkeiten auch buch- und kommunikationswissenschaftliche Forschungsperspektiven, wie beispielsweise Forschungen zur Typographie- und Verlagsgeschichte.

Weblinks


Kategorien: Sprachwissenschaft | Digitale Bibliothek | Computerlinguistik | Germanistik | Korpuslinguistik

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Deutsches Textarchiv (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.