Nach der Transkription ist vor der Normalisierung

Ein Teilziel unseres Projekts ist es ein kleines Korpus von Pesttraktaten und Bäderkunden aus dem 15.-17. Jh. zu erstellen, das auch für andere Forschungsinteressen verfügbar gemacht werden wird. Die Drucke liegen alle digitalisiert bei verschiedenen Bibliotheken vor, mussten allerdings zur weiteren Verarbeitung maschinenlesbar gemacht werden. Dazu verwendeten wir im Projekt die Software transkribus, die automatische Texterkennung auch für ältere Sprachstufen und verschiedene Schriftarten ermöglicht. Die Ergebnisse mussten daraufhin Korrektur gelesen werden. Diesen ersten wichtigen Arbeitsschritt konnten wir Mitte letzten Jahres abschließen. Wir streben an die Transkriptionen demnächst zu veröffentlichen und nutzbar zu machen.

In einem nächsten Schritt sind wir nun dabei die Texte formal zu annotieren: Normalisierung, Lemmatisierung und Part of Speech. Dafür haben wir zunächst den automatischen Tagger DTA-CAB des deutschen Textarchivs verwendet. Nun gilt es auch wieder die Annotationen zu korrigieren und an unsere Ansprüche anzupassen. Dabei arbeiten wir mit der Software INCEpTION, die auf Korpusannotationen ausgelegt ist (siehe Bild). Im Moment arbeiten wir an der Normalisierung, hoffen aber dass wir bald mit der nächsten Annotationsebene starten können.

Nach den formalen Annotationen wollen wir zudem eigene qualitative Annotationen vornehmen, die uns bei der Beschreibung von man-Verwendungen helfen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert