Transkribus

Was ist Transkribus?

Transkribus ist eine Plattform für die automatische Erkennung von Handschriften, Druckschriften, Bildern und Layoutstrukturen. Sie eignet sich besonders, um Dokumente in ihrer vielfältigen typographischen, graphischen und strukturellen Darstellung maschinell zu erschließen und für linguistische Forschungsfragen weiterzunutzen. Transkribus segmentiert hierzu jedes Dokument automatisch in Textblöcke (text regions), Grundlinien (baselines) und Zeilen (line regions). Eingebaute OCR-Tools ermöglichen darüber hinaus eine automatische Texterkennung, die besonders bei hochwertigen Scanvorlagen gute Ergebnisse liefern.

Vorteile:

Auswahl aus einem großen Fundus an Funktionen und Werkzeugen zur Texterschließung
nach Registrierung frei nutzbar
zuverlässige Strukturerkennungsfunktionen, die auch manuelle Korrekturen erlauben
vielfältige Möglichkeiten des Datei-Imports (PDF, jpg, docx…) und -Exports (PDF, docx, xml…)
intuitiv zugängliche Benutzeroberfläche mit Bildbereich, Texteditor und Menüleiste (gilt für die Grundfunktionen der Plattform)
Automatische Bild- und Texterkennung spezifischer Dokumente sind trainierbar
individuelle Korpuserstellung für größere Datenmengen

Nachteile:

Großer Funktionsumfang erfordert Einarbeitungszeit
Umgang mit den Annotationswerkzeugen manchmal umständlich

„Getting started“ – Schritt-für-Schritt-Anleitung

Laden Sie sich die letzte Release-Version von Transkribus unter https://transkribus.eu/Transkribus/ für Ihr Betriebssystem herunter. Um die Plattform nutzen zu können, ist eine Registrierung notwendig (Verknüpfung via Google-Konto ist möglich). Folgen Sie den Installationsschritten und öffnen Sie Transkribus auf ihrem lokalen System.

Loggen Sie sich mit ihren Zugangsdaten auf den Servern des Programms ein, um Zugriff auf einige Beispieldokumente sowie die Funktionen von Transkribus zu erhalten.

Ansicht der Benutzeroberfläche in „Transkribus“

Automatische Layout-Analyse

Sie haben nun die Möglichkeit, eine automatische Layout-Analyse Ihres Dokumentes durchzuführen. Klicken Sie hierzu in der Funktionsleiste oben links auf Tools und wählen Sie nach Bedarf, ob Transkribus die ausgewählte Seite oder das gesamte Transkript analysieren soll. Die Funktionen Find Text Regions und Find Lines in Text Regions sind automatisch aktiviert, klicken Sie unter dem Punkt Layout Analysis auf Run und die automatische Analyse startet (auch hier kann die Bearbeitung je nach struktureller Komplexität einige Zeit in Anspruch nehmen).

Transkribus präsentiert das analysierte Dokument anschließend in Bildform mit segmentierten Textblöcken und Zeilenerkennungen, die Sie als Grundlage für eine eigene Transkription nutzen können. Der Texteditor unterhalb der Bildansicht stellt die Zeilen des Fließtextes dar, in die Sie die Transkription eintragen können. Texttranskription und die bildliche Originalvorlage sind Zeile für Zeile miteinander verknüpft:

Wenn Sie die automatische Layouterkennung Ihren eigenen Bedürfnissen anpassen bzw. Erkennungsfehler korrigieren möchten, können Sie die Werkzeuge der vertikalen Funktionsleiste links neben der Bildansicht nutzen. Hier können Sie Ihrem Dokument auch weitere Textregionen, Linien oder andere Annotationselemente hinzufügen.

Die weitere Bearbeitung des Dokuments in Transkribus richtet sich nach Ihren Forschungsfragen und Erkenntnisinteressen, die Methode des Ausprobierens und Erkundens eignet sich für Transkribus aufgrund der vielfältigen Funktionen sehr gut. Exemplarisch sei auf die Möglichkeit hingewiesen, Ihren transkribierten Text mit zusätzlichen Informationen zu „taggen“ (mit Auszeichnungen anzureichern). Unter dem Reiter Metadata finden Sie eine Fülle von vorgegebenen „Tags“ (aufgeteilt in strukturelle Tags und textuelle Tags), mit der Sie Ihr Dokument annotieren können. Neben prototypischen Annotationen für Textauszeichnungen (Überschriften, Signaturzeilen, Paragraphen, Bildern etc.) können Sie auch eigene Annotationen erstellen und das Dokument individuell auszeichnen. Folgender Screenshot zeigt diese Weiterverarbeitung exemplarisch:

Automatische und semi-automatische Texterkennung und Annotation von Textbausteinen

Automatische Texterkennung (OCR)

Ein weiteres, überaus nützliches Tool in Transkribus ist die automatische Texterkennung mittels OCR („Optical Character Recognition“). Klicken Sie hierzu erneut auf den Reiter Tools. Unter dem Unterpunkt Text Recognition können Sie nun eine Methode der automatischen Texterkennung auswählen, deren Erkennungsgenauigkeit ganz erheblich von der Dokumentenvorlage abhängt. Im vorliegenden Beispieldokument handelt es sich um einen gedruckten Text in der noch heute gängigen Schriftart Antiqua, was die Erfolgsrate der automatischen Texterkennung immens steigert. Da Transkribus auch auf die Erkennung von Handschriftenvorlagen programmiert ist, können Sie unter Models… ein Erkennungsmodell auswählen, das auf authentischen handschriftlichen Vorlagen trainiert wurde und die OCR-Erfolgsrate Ihres Dokumentes erhöhen könnte. Die OCR-Erkennung des Beispieltranskriptes zeigt folgender Screenshot ausschnitthaft:

Exemplarisches Ergebnis einer automatischen Textannotation

Wenn Sie Ihre annotierten Dokumente weiterverarbeiten wollen, bietet Ihnen Transkribus eine ganze Reihe an Exportoptionen. Klicken Sie hierzu auf das Symbol mit dem Befehl Export document in der horizontalen oberen Menüleiste. Die Software bietet unter anderem den Export des Materials als PDF-Dokument, als simple TXT-Datei, als Word-Dokument, als Excel-Tabelle oder als TEI-XML-Dokument an. Zusätzlich können Sie genau auswählen, welche Informationen (Annotationen, Textregionen, Zeilenumbrüche, Seiten etc.) exportiert werden sollen.

Exportoptionen zur Weiterverarbeitung der Annotationen

Folgender Screenshot zeigt einen PDF-Export der in der Anleitung analysierten Beispielseite:

Aus „Transkribus“ exportiertes PDF-Dokument (Beispiel)

Weiterführende Links:

https://transkribus.eu/Transkribus/

Transkribus Wiki