Digitale Editionen mithilfe von TEI-XML erstellen

Das auf XML basierende Dokumentenformat TEI hat sich in den Geisteswissenschaften zum Standard für die Kodierung und Editierung von Texten entwickelt. Aus diesem Grund nahm die Einführung in TEI-XML einen breiten Raum in der Spring School ein. Um die Grundlagen der Auszeichnungssprache kennenzulernen, haben wir Urkunden zur Gründung der Paderborner Jesuitenuniversität kodiert.

TEI-XML hat den großen Vorteil, dass man verschiedenste Texte einheitlich formatieren kann. Mittels der Tags ist eine einfache und doch klare Strukturierung des Textes möglich. Anders als bei Dokumenten von Textverarbeitungsprogrammen sind XML-Dateien relativ frei in der Benutzung. So ist man nicht auf eine spezielle Software angewiesen. Dies ist vor allem im Hinblick auf eine langfristige Nutzung von Bedeutung. TEI-XML-Dateien können zudem relativ einfach in andere Formate wie PDF, XDOC, ODT oder XHTML umgewandelt werden.

Indem man eine TEI-Edition erstellt, führt man im Grunde eine erste Quellenbeschreibung und -kritik durch. So werden Namen, Berufe, Daten und Orte gekennzeichnet. Auch Absender und Adressaten können mit Tags kenntlich gemacht werden. Die Auszeichnungen (englisch Markups) geben dem Text eine Struktur. Gerade bei der Formatierung des Textes besteht jedoch immer die Gefahr einer eigenen Interpretation, da nicht eindeutige Darstellungen falsch gedeutet werden. So stellte sich bei einer der von uns zu editierenden Urkunden die Frage, ob ein Wort durchgestrichen oder lediglich unsauber geschrieben war. Dies ist jedoch ein generelles Problem und nicht speziell auf die Arbeit mit TEI-XML bezogen. TEI-XML hat in einem solchen Fall den Vorteil, dass Uneindeutigkeiten oder Unsicherheiten durch bestimmte Tags deutlich gemacht werden können, ohne dabei den Textfluss zu stören.

Im Header-Bereich können zudem die Metadaten wie Autor, Entstehungsort, Provenienz und evtl. Zustand der Quelle eingetragen werden. Durch Attribute wie „type“ ist es möglich, genauer auf einzelne Personen, Orte und andere Begriffe einzugehen. Für die spätere Textuntersuchung mittels Distant Reading ist außerdem die Vergabe von IDs nützlich. So kann gezielt nach Personen und Orten gesucht werden. Außerdem ist es so möglich gleichnamige Personen und Orte zu unterscheiden sowie unterschiedliche Namen mittels der ID einer Person oder einem Ort zuzuschreiben. Gleichzeitig können diese Personen und Orte im Header genauer beschrieben werden. Interessant ist in diesem Zusammenhang auch die Möglichkeit, eine Verbindung zur Gemeinsamen Normdatei herzustellen, indem man die entsprechenden Kennnummern angibt.

Durch die Möglichkeiten, unterschiedliche Texte zu kodieren und Informationen zum Text durch Tags und Metadaten zu speichern, eignet sich TEI ideal für die Zusammenstellung und das Editieren eines Textkorpus. Dank der Markups können Texte mit TEI-XML nicht nur strukturiert, sondern auch historisch-kritisch analysiert werden.

Insgesamt war die Arbeit mit TEI sehr aufschlussreich und interessant. Sie lernte ich zum ersten Mal die Schwierigkeiten einer editorischen Textarbeit kennen. Probleme und Fragen bei der Erstellung eines Textkorpus wurden ebenfalls sichtbar. Zugleich erhielt ich durch die Arbeit mit TEI einen neuen Zugang zu den Quelltexten. Ich halte die Arbeit mit TEI-XML im heutigen sogenannten digitalen Zeitalter für sehr wichtig, da sie die modernen technischen Möglichkeiten auf ideale Weise für die kultur- und geisteswissenschaftliche Textanalyse fruchtbar macht. So können Formatierungen des Textes durch Markups transparent gekennzeichnet und umgesetzt werden.

Das Einfügen ergänzender Informationen und die Erläuterung zentraler Begriffe im Header machen die grundlegenden Textarbeiten einfacher. Zugleich verlangt die Erstellung einer solchen Edition ein umfangreiches Fachwissen sowie eine genaue Planung. Nur so kann ein gründliches Ergebnis erzielt werden. Insbesondere auch die Vereinheitlichung aller Tag-Begriffe ist hier von entscheidender Bedeutung, da nur so ein wissenschaftlich brauchbarer Textkorpus entsteht. Damit dies sichergestellt und auch die Wohlgeformtheit gewährleistet ist, muss eine intensive Einarbeitung erfolgen. Trotz der doch oft sehr kleinteiligen und diffizilen Arbeit, würde ich die Arbeit mit TEI als gewinnbringend bezeichnen, vor allem auch, da so eine wichtige Grundlage für spätere weiterführende Untersuchungen am Text gelegt ist.

Durch die schnelle und problemlose Verbreitung von TEI-Editionen über das Internet können die Texte einem großen Leserkreis präsentiert werden. Damit trägt die wissenschaftliche Digitalisierung von Texten mittels TEI-XML zur Transparenz und Zugänglichkeit von wichtigen Quellen bei.

Die uns gestellten Aufgaben umfassten die Beschreibung des Siegels und die Auszeichnungen von Abkürzungen im Text.

Die Beschreibung des Siegels durch das Element . (Klicken Sie auf das Bild, um es zu vergrößern.)

Ich habe drei Abkürzungen im Text mit <abbr> markiert und diesen Tags das Elternelement <choice> zugeordnet. In dieses habe ich wiederum zusätzlich das Kindelement <expan> eingefügt, welches die Abkürzung auflöst:

Voyant macht die quantitative Textanalyse schnell und einfach

Ein wichtiger Bereich im Rahmen des wissenschaftlichen Arbeitens ist die Analyse der Quellentexte. Neben der inhaltlichen Auswertung kann auch das sogenannte Distant Reading zu wichtigen Erkenntnissen führen. Dabei handelt es sich um eine statistische und quantitative Analyse von Texten. Diese Auswertung lässt sich zwar prinzipiell auch manuell durchführen, doch ist dies mit einem großen Arbeits- und Zeitaufwand verbunden. Computerprogramme können einem diese Arbeiten abnehmen. So war die linguistisch-quantitative Auswertung von Texten der erste Einsatzbereich von Digitaltechnik in den Kulturwissenschaften und bildete damit die Grundlage der Digital Humanities.

In der Spring School erhielten wir die Aufgabe, insgesamt 13 Reden von Adolf Hitler durch das Distant Reading im Hinblick auf religiöse Begrifflichkeiten und Deutungsmuster auszuwerten. Diese 13 Reden stammen alle aus der Zeit der NS-Herrschaft, wobei aus jedem Jahr jeweils eine Rede übernommen worden ist. Dadurch ergibt sich ein relativ breiter zeitlicher Kontext. Dies erlaubt es, das allgemeine Auftauchen von religiösen Vokabeln in Hitlers Rhetorik zu erfassen. Ein zu enger Zeitraum hätte womöglich keine allgemeingültige Aussagekraft gehabt, da die Abhängigkeit der Wortwahl und der Themen von konkreten Einflüssen nicht herausgestellt werden könnte. Zugleich können durch die Wahl eines großen Zeitraums auch gewisse Trends dargestellt werden.

Für unsere Textanalyse haben wir auf das webbasierte Open-Source-Programm „Voyant Tools“ zurückgegriffen. Die Software zeichnet sich durch eine einfache Benutzbarkeit und eine große Vielfalt an Darstellungsformen aus. Die Texte lagen uns als txt-Dateien vor und konnten zusammen bei Voyant hochgeladen werden.

Mithilfe der Software habe ich die Texte nach verschiedenen Begriffen durchsucht und die Ergebnisse grafisch dargestellt. Als erstes Suchwort wählte ich den Begriff „gott*“. Das Stern-Symbol sorgt dafür, dass Voyant nach allen Wörtern sucht, die mit dem Begriff „gott“ beginnen, sodass also auch Deklinationen und Komposita erfasst werden. Dabei zeigt sich, dass es in den Reden von 1939 und 1940 einen deutlichen Peak gab. Insgesamt je zwölf Mal finden sich in diesen beiden Reden Begriffe, die das Wort „gott“ enthalten. In den Ansprachen, die aus der Anfangs- und Endzeit der NS-Diktatur stammen, tauchen Worte mit „gott“ dagegen kaum oder gar nicht auf. Insbesondere die Reden ab 1943 sparen den Begriff bis auf eine Ausnahme vollkommen aus. Die Gründe könnten in der angespannten und sich zunehmend verschlechternden Kriegssituation liegen. Vor allem zu Beginn des Krieges findet das Wort „gott“ sehr häufig Verwendung. Dies deutet daraufhin, dass der Optimismus und der Glaube an eine göttliche Vorsehung des Krieges bei vielen Nationalsozialisten sehr stark populär waren. Hitler konnte so die Massen begeistern, während später vor allem Durchhalteparolen die Ansprachen bestimmten.

Lässt man sich mittels microsearch die Textlängen grafisch anzeigen und die Textbereiche farbig markieren, die „gott*“ enthalten, fällt aber außerdem auf, dass besonders die Rede von 1939 im Vergleich zu den übrigen zu untersuchenden Texte sehr lang ist. Die gehäufte absolute Zahl an „gott“-Begriffen könnte sich also auch aus der umfangreichen Wortmenge erklären. Zugleich sieht man jedoch auch, dass die Rede im Sportpalast von 1940, in welcher ebenfalls 12 Mal das Wort „gott“ zu finden ist, eine im Vergleich mit den anderen Texten durchschnittliche Wortzahl besitzt. Hier taucht der Begriff also auch im Verhältnis zu übrigen Wortzahl sehr oft auf. Deutlich hervorheben kann man dies auch durch ein Liniendiagramm, indem man als Wert der y-Achse die relative Frequenz bestimmt.

Als weiteren Untersuchungsbegriff wählte ich das Wort „heil*“. Ähnlich wie bei „gott*“ zeigte sich auch hier eine Häufung in der langen Rede im Sportpalast von 1939. Auffallend ist hier, dass es in der Rundfunkansprache von 1945 noch mal einen Anstieg im Vergleich zu den Jahren davor gibt. Dies ist umso bemerkenswerter, da diese letzte Rede in unserer Auswahl zugleich die kürzeste ist. Dadurch ist die relative Häufigkeit bei diesem Text am größten. Dies könnte mit der drohenden Kriegsniederlage zusammenhängen. Durch eine Sakralisierung des Krieges soll dieser nicht nur gerechtfertigt, sondern auch als moralische Notwendigkeit herausgestellt werden. Eine genaue Durchsicht der Ansprache bestätigt diese Vermutung. So sei es wichtig „den heiligen Entschluß zu erhärten, die Waffen zu führen“, zumal Hitler „von der heiligen Überzeugung“ beseelt sei, dass der Allmächtige den Führer und das deutsche Volk schließlich zum Sieg führe.

Im Vergleich von „Raw Frequencies“ (absolute Häufigkeit, Diagramm oben) und „Relative Frequencies“ (relative Häufigkeit, Diagramm unten) des Begriffes „heil*“ zeigt sich, wie sehr die Ergebnisse einer Statistik von der Wahl der Parameter bzw. Maßzahlen abhängen.

 

Selbstreflektion und weitergehende Überlegungen

Insgesamt war die Textanalyse mit Voyant Tools sehr interessant und hat mir die Möglichkeiten einer solchen statistischen Auswertung vor Augen geführt. Die zahlreichen Grafiken und Diagramme haben die linguistischen Häufigkeitsauswertungen auf deutliche und attraktive Weise veranschaulicht. Sie eignen sich ideal, um quantitative Quelltextanalysen in Forschungsarbeiten und Präsentationen ansprechend darzustellen und die sprachlichen Ausführungen zu ergänzen. Zugleich kann eine solche statistische Auswertung auch für die interne Quellenarbeit genutzt werden. So erhält man einen ersten Eindruck von den zu untersuchenden Texten und eventuell Hinweise zu möglichen Interpretationsansätzen. Man sollte sich jedoch vor Augen führen, dass dieses „Distant Reading“ keine inhaltliche Auswertung ersetzt. Um eindeutige Schlussfolgerungen ziehen zu können, ist eine Überprüfung und Analyse der Texte notwendig.

Durch den relativ großen Umfang an Darstellungsformen konnte ich noch nicht alle Möglichkeiten austesten und verwenden. Diese Vielfalt erlaubt eine Visualisierung, die genau auf die individuellen Forschungszwecke ausgerichtet ist. Zugleich sollte man aber auch aufpassen, seine Forschungsergebnisse nicht mit zu vielen, letztendlich redundanten Grafiken zu überfrachten. Daher habe ich mich für einige wenige Darstellungsgrafiken entschieden, die die Ergebnisse übersichtlich präsentieren. Auch bei der Wahl der Begriffe musste ich zu Beginn abwägen. Nachdem ich mehrere Wörter ausgewählt und mit Voyant im Text gesucht hatte, habe ich mich schließlich für zwei Begriffe entschieden. Diese konnten in den vorliegenden Texten anschauliche Ergebnisse liefern. Ein weiteres Problem für mich stellte der relativ kleine Textkorpus dar. Dies war sicherlich dem einführenden Charakter dieser Übung geschuldet. Für eine aussagekräftigere Analyse der nationalsozialistischen Religionsrhetorik müssten umfangreiche Textsammlungen durch Voyant Tools analysiert werden.

In Voyant kann man sich die gesuchten Wörter auch als Blasen in einem Textstrang anzeigen lassen. Violett repräsentiert hier das Vorkommen des Begriffes „heil*“, während die türkisfarbenen Blasen die Häufigkeit des Wortes „gott*“ anzeigen.

Daten effizient verwalten dank MS Access

Ein weiterer Themenpunkt im Rahmen der Spring School umfasste die Erstellung von Datenbanken mittels Datenbankmanagementsystemen. Zwar bieten auch Excel und Word prinzipiell die Möglichkeit einer Datenerfassung und –verwaltung, doch können in speziellen Datenbankmanagementsystemen wie Access oder MySQL Relationen und Datenausgaben besser strukturiert und effizienter genutzt werden. So können Daten verschiedener Tabellen gezielt miteinander verknüpft werden, was Redundanzen verhindert. Dadurch wird eine größere Übersichtlichkeit erzielt und zugleich weniger Datenspeicher verbraucht. Insbesondere bei großen Datenmengen ist ein solches Datenbankmanagementsystem von Vorteil.

In unserem Kurs haben wir MS Access genutzt, das wahrscheinlich zu den bekanntesten Programmen in diesem Bereich zählt. Am Beispiel eines Bibliothekssystems wurde die Erstellung einer relationalen Datenbank veranschaulicht. Als Übung erhielten wir die Aufgabe, eine einfache Tabelle in eine Datenbank zu überführen. In der Tabelle wurden Personendaten aus der Zeit des Nationalsozialismus festgehalten. Neben Name sowie Geburts- und Sterbedatum wurde außerdem, wenn vorhanden, eine Mitgliedschaft in einer NS-Institution erfasst. Lag eine Mitgliedschaft vor, wurden Eintrittsdaten und Parteiort angegeben.

Um diesen Datenbestand effizient in einer Datenbank nutzbar zu machen, musste zuerst eine Normalisierung erfolgen. In einem ersten Schritt habe ich das Attribut „Name“ in der Tabelle atomisiert, also in mehrere Spalten aufgeteilt. In diesem Fall sind dies Vor- und Nachname. Ein weiteres Problem stellte sich bei den Attributen „Institution“ und „Eintrittsdatum“. Hier konnten mehrere Werte in einem Datenfeld stehen. Um dies zu übersichtlicher zu gestalten, hätte man für jeden Wert einen eigenen Datensatz anlegen können. Dies würde jedoch bedeuten, dass Mitglieder von zwei oder drei Institutionen mehrmals in der Tabelle auftauchen. Zudem gibt es auch Personen in der Tabelle, die keiner NS-Organisation Mitglied waren. Diese Doppeleinträge kann man vermeiden, wenn man eine eigene Tabelle für die Institutionen anlegt.

Die von mir erstellte Tabelle Person_tbl erhält lediglich die Daten zu den Personen und gibt diesen jeweils eine ID. Vor- und Nachname erhielten eigene Spalten.

Es ergaben sich jedoch weitere Problemstellungen: So ist bei dem zweiten Datensatz (Manfred Schmidt) lediglich die SA als Mitgliedschaft eingetragen, in der Spalte „Eintrittsdatum“ ist jedoch das NSDAP-Aufnahmedatum verzeichnet. Ich kann mir dies durch den Verlust von entsprechendem Quellenmaterial erklären. Für eine intensivere Auseinandersetzung müsste man sich genauer mit den Quellen, aber auch mit dem institutionellen Aufbau der NSDAP und seinen Verbänden beschäftigen. Eine weitere Frage stellt sich mir beim Attribut „Parteiort“. Bezieht sich dieser nur auf die NSDAP oder sind auch SS und SA den jeweiligen Parteiorten zugeordnet. Hier liegen zudem logischerweise auch nur bei Mitgliedern der NS-Organisationen Eintragungen vor. Ich habe mich dazu entschieden, eine dritte Tabelle zu erstellen, in welcher ich die ID der Personen mit den Parteiorten verbunden und diese jeweils mit einer eigenen ID versehen habe. In einer vierten Tabelle habe ich dann die Parteimitglieder-Parteiort-ID mit der ID der Institutionen verbunden und zusätzlich das Eintrittsdatum in einem weiteren Feld verzeichnet. So konnte ich alle Informationen bzw. Daten erhalten und auf Redundanzen verzichten.

Grafische Darstellung der Beziehungen zwischen den Tabellen. Die Verbindungen wurden durch die ID-Schlüssel hergestellt. (Klicken Sie auf das Bild, um es zu vergrößern.)

Die einzelnen Tabelleneintragungen lassen sich auch übersichtlich als Formulare anzeigen. Hier sehen Sie das Access-Formular zu den Daten von Herbert Meyer:

Literatur übersichtlich verwalten mit Zotero

Zotero ist ein freies Literaturverwaltungsprogramm, welches ein einfaches Bibliografieren ermöglicht. Mit Zotero kann die verwendete Literatur übersichtlich verwaltet sowie schnell und unkompliziert in die eigenen Arbeiten eingebunden werden. Um uns mit Zotero und den Möglichkeiten der digitalen Literaturrecherche vertraut zu machen, erhielten wir den Auftrag, eine kleine Bibliografie zu den Gründungsurkunden der Paderborner Jesuitenuniversität zu erstellen.

Die Überlieferung der Quellen zur Gründung der Jesuitenuniversität kann als sehr gut beurteilt werden. Es liegen mehrere Abschriften vor. So befinden sich die Originale im Archiv des Studienfonds Paderborn in der Erzbischöflichen Akademischen Bibliothek Paderborn. Für unseren Versuch einer Editierung mittels TEI-XML lagen uns Fotografien und Abschriften vor. Die von uns verwendeten Abschriften aus der Quellensammlung „Urkunden zur Gründung des Jesuitenkollegs und der Universität in Paderborn 1604-1615“ von Friedrich Gerhard Hohmann stammen selbst von Abschriften ab, wie im Impressum auf der letzten Seite zu lesen ist. Die Abschriften selbst sind alle im Original, also auf Latein und ohne deutsche Übersetzung, abgedruckt. Da alle Abschriften als unformatierte Texte vorliegen, ist lediglich der Inhalt, nicht aber die äußere Form identisch mit dem Original. Dies erleichtert die inhaltliche Analyse. Zudem können die Texte so relativ leicht durch ein Texterkennungsprogramm digitalisiert werden. Durch die fehlende optische Gestaltung gehen leider wichtige Informationen verloren. Im Vorwort des Herausgebers Friedrich Gerhard Hohmann werden Gestaltung, Form und Zustand der Quellen beschrieben. Wie auch in meinem Blogeintrag zur Digitalisierung und zur Nutzung von TEI-XML erwähnt, können diese äußeren Merkmale bei der Digitalsierung durch Metadaten ausgedrückt werden

Bei der Recherche zur Gründung des Jesuitenkollegs in Paderborn bin ich zuerst systematisch vorgegangen. Eine Suche im Katalog der Universitätsbibliothek Paderborn brachte einige entscheidende Treffer. Die Recherche im Web gestaltete sich schwieriger. Schließlich konnte ich auch hier drei für das Thema relevante Texte finden. Da ich bereits mit Citavi gearbeitet habe, konnte ich bei der erstmaligen Nutzung von Zotero auf Vorwissen im Umgang mit Literaturverwaltungsprogrammen zurückgreifen. Neben der Einführung in der Spring School waren außerdem kleine Online Tutorials zu bestimmten Bereichen und Funktionen hilfreich.

Wie im Screenshot ersichtlich, habe ich eine Sammlung „Jesuiten-Universität“ erstellt, in welcher ich die Bücher und Webseiten aufgeführt habe. Beispielhaft habe ich eines der Bücher mit einer Notiz versehen und außerdem den PDF-Scan des Buches als Anhang hinzugefügt.

Klicken Sie auf das Bild, um es in Originalgröße zu betrachten.

Insgesamt halte ich Literaturverwaltungsprogramme wie Citavi oder Zotero für äußerst nützlich, wenn man wissenschaftlich arbeiten will. Sie helfen bei der Strukturierung von Quellen und Sekundärliteratur, schaffen einen guten Überblick über die benutzte Literatur und vereinfachen durch Add-Ins die Literatursuche im Internet sowie das Einfügen der Literatur in wissenschaftliche Arbeiten.

Digitalisation

Um uns mit den technischen Voraussetzunge der Digitalisierung vertraut zu machen, sollten wir den Aufsatz „Digitalisierung“ von Malte Rehbein lesen. Rehbein beschäftigt sich hier mit der kultur- und geisteswissenschaftlichen Nutzbarmachung von Digitalisaten. Zugleich werden auch die Anforderungen an die digitalen Kopien thematisiert.

Rastergrafik

Der Autor konzentriert sich dabei vor allem auf die digitale Abbildung von optischen Informationsträgern, also Bild- und Textquellen. Die Erfassung gelingt dabei durch Sensoren, die das reflektierte Licht registrieren und in digitale Daten umwandeln. Es entsteht eine Rastergrafik als digitale Kopie.

Dabei werden innerhalb eins Koordinatensystems alle Bildpunkte (Pixel) mit ihrer jeweiligen Farbtiefe erfasst. Die Farbtiefe ergibt sich aus dem Bitcode. Je mehr Bits zur Beschreibung eines Pixels vorhanden sind, desto größer ist die Farbauswahl. Die Farbtiefe der einzelnen Bildpunkte und die Zahl der Pixel bilden die Werte einer Rastergrafik und machen daher auch den Speicherbedarf aus. So können große Bilder mit einer Vielzahl an Farben viel Speicherplatz und eine hohe Rechenleistung erfordern. Mittels Kompressionsverfahren lässt sich die Dateigröße jedoch vermindern. Viele standardmäßig genutzte Kompressionsformate sind jedoch verlustbehaftet: Um Speicherplatz zu sparen, werden vom menschlichen Auge nicht wahrnehmbare Differenzierungen und Eindrücke aus dem Bild herausgefiltert. Bei einer zu hohen Kompression ist jedoch eine visuelle Verschlechterung des Bildes zu erkennen. Daneben gibt es auch verlustfreie Kompressionsverfahren. Dabei werden Redundanzen vermieden, indem zusammenhängende Bildpunkte mit derselben Farbtiefe nur einmal als Pixel gespeichert werden. Gleichzeitig werden die Informationen über die genauen Koordinaten der Bildpunkte durch einen Algorithmus gespeichert. Dieses Verfahren bedeutet zwar einen geringeren Speicherverbrauch, verlangt jedoch eine höhere Rechenleistung, da das Bild bei jeder Darstellung entsprechend gerastert werden muss.

Vektorgrafik

Neben den Rastergrafiken finden vor allem Vektorgrafiken Verwendung. Hier werden nicht die einzelnen Bildpunkte gespeichert, sondern Informationen zu den geometrischen, farblichen und weiteren gestalterischen Eigenschaften. Bei der Ausgabe der Grafik wird das Bild anhand dieser Informationen mit einem Algorithmus berechnet. Der große Vorteil besteht darin, dass sich Vektorgrafiken ohne Qualitätsverlust skalieren lassen. In der Regel ist der Speicherbedarf auch geringer, da nur die Parameter gespeichert werden. Im Gegenzug benötigt man für das Aufrufen einer Vektorgrafik jedoch mehr Rechenleistung, da das Bild erst gerendert werden muss. Der Speicherplatz einer Vektorgrafik richtet sich daher auch nicht nach der Größe des Bildes oder der Farbtiefe, sondern nur nach der Komplexität der Darstellung. Aufgrund der technischen Komplexität werden Bilder und Texte jedoch meist als Rastergrafiken digitalisiert.

Parameter

Die technischen Parameter bestimmen die Qualität des Digitalisats und damit auch die wissenschaftliche Aussagekraft. Es gibt hier keine allgemeingültigen Vorgaben. Vielmehr muss bei der Einstellung der technischen Parameter die spätere Nutzung und der Forschungszweck mitbedacht werden. Aus diesem Grund ist es wichtig, die technischen Parameter der jeweiligen Digitalisierung zu kennen. Nur so kann man feststellen, ob sich die digitalen Abbilder überhaupt für den jeweiligen Forschungszweck eignen.

Trotzdem gibt es einige allgemeine Richtlinien, die vor allem die Auflösung des Digitalisats betreffen. Diese sollte mindestens 300 dpi (dots per inch) betragen. Ein inch sind 25,4 mm, sodass mindestens 300 Pixel auf einer 25,4 mm langen Strecke abgetastet werden sollten. Bei detaillierten Untersuchungen einzelner Bildteile oder des Materials sind noch höhere Auflösungen notwendig.

Geräte zur Digitalisierung und Archivierung

Die Standardgeräte zur Digitalisierung sind dabei Scanner und Digitalkameras. Beide arbeiten mit elektronischen Bildsensoren, die das reflektierte Licht auffangen und in ein Abbild umwandeln. Verwendet man eine Digitalkamera, so kann man durch die Fokussierung, die Größe der Blendenöffnung, die Verschlusszeit sowie die Brennweite des Objektivs die Qualität des Digitalisats beeinflussen oder bestimmte Bereiche der Vorlage besonders in den Blick nehmen.

Scanner sind Datenerfassungsgeräte, die die Vorlage mittels Licht nach bestimmten Rastern abtasten und digitalisieren. Dabei wird zwischen Flachbettscannern und Buchscannern unterschieden. Erstere sind vor allem für die Digitalisierung von einzelnen zweidimensionalen Objekten geeignet. Bücher können aufgrund der Buchbindung schlecht auf Flachbettscannern digitalisiert werden, da die Objekte dort mit der zu scannenden Seite flach auf der Glasplatte aufliegen müssen. Zudem kann so die Bindung zerstört werden. Daher verwendet man hier spezielle Buchscanner. Das Buch wird dabei aufgeschlagen auf die sogenannte Buchwippe gelegt und von oben abfotografiert. Glasplatten und andere Befestigungsmethoden sorgen dafür, dass die Seiten fixiert sind und sich nicht umblättern. Um bei wertvollen und empfindlichen Büchern die Bindung nicht zu zerstören, finden mittlerweile auch Scanner Verwendung, die eine Abtastung bei einem Öffnungswinkel von 45 Grad erlauben. Müssen ganze Bücher digitalisiert werden, kümmern sich Scan-Roboter um das automatische Umblättern und die Fixierung der Seiten.

Eine immer noch verwendete analoge Abbildungsmöglichkeit sind Mikroformen, wie Mikrofiche oder Mikrofilm. Hier wird eine Vorlage stark verkleinert auf Filmmaterial abgebildet. Mittels eines Lesegerätes kann diese Kopie vergrößert betrachtet werden. Die lange Haltbarkeit der Mikrofilme, die auf bis zu 500 Jahre geschätzt wird, macht sie zum idealen Speichermedium für Bibliotheken und Archive. Die Mikroformen können durch spezielle Geräte zudem digitalisiert werden, sodass man hier nicht das Original als Vorlage benötigt.

Die Metadaten

Zur Erschließung eines Digitalisats sind Metadaten von großer Wichtigkeit. Rehbein unterscheidet vier Typen von Metadaten. Deskriptive Metadaten beschreiben den Inhalt und sind vor allem zum Auffinden eines Digitalisats wichtig. Der Aufbau des Bildes oder Textes wird in den strukturellen Metadaten festgehalten, während die technischen Metadaten die Qualität des Objektes beurteilen. Die administrativen Metadaten geben Auskunft über die Nutzungsrechte. Insgesamt hat sich hier kein allgemeingültiger Standard durchsetzen können, sodass es eine große Zahl an Spezifikationen gibt, die auf die jeweiligen Fachgebiete zugeschnitten sind.

Digitale Texterfassung

Bei der Digitalisierung eines Textes müssen noch weitere Vorgaben beachtet werden. So muss hier nicht einfach nur das Druckbild digital erfasst werden, sondern auch der Text erkannt werden. Man bedient sich dafür zwei Methoden: Bei der manuellen Zeichenerfassung wird der Text per Hand abgetippt. Um Flüchtigkeitsfehler zu verhindern, wird ein Text dabei von mehreren Personen abgetippt und anschließend verglichen.

Beim zweiten Verfahren erfolgt wie bei der Bilddigitalisierung eine automatische digitale Abtastung der Vorlage als Rastergrafik, die als Optical Character Recognition bezeichnet wird. Mögliche Verzerrungen oder andere Bildstörungen, die die spätere Texterkennung stören könnten, sollten danach bei einer Vorverarbeitung behoben werden. Danach wird die Grafik binarisiert, d. h. jeder Bildpunkt wird entweder dem Hintergrund oder dem Text zugeordnet. Eine Analyse und Segmentierung der Vorlage filtert alle nicht zum Text gehörenden Bereiche wie Bilder aus der Texterkennung heraus. Die Textbereiche werden in Zeilen und Wortblöcke geordnet. Bei der anschließenden Zeichenerkennung werden die einzelnen Glyphen mit einem Modellzeichensatz verglichen und dementsprechend zugeordnet. In der Nachbearbeitung wird der Text mit Wörterbüchern verglichen, um mögliche Zeichen- und daraus resultierende Wortfehler zu beheben.

Damit ein solch digitalisierter Text für die wissenschaftliche Auswertung brauchbar ist, empfiehlt die DFG eine Textgenauigkeit von 99,95 %. Die Qualität einer Textdigitalisierung hängt dabei vom Zustand und der Textart der Vorlage ab. So ist das Erkennen von Handschriften wesentlich schwieriger als von Schreibmaschinen-, Computer- oder Buchdrucktexten.

Weitere Digitalisierungsformen

Dank moderner Techniken gibt es heute weitere Digitalisierungsformen. So ermöglichen 3D-Digitalisierungsverfahren eine gegenständliche Erfassung einer Vorlage. So können Informationen, die bei der zweidimensionalen Digitalisierung nur mittelbar als Metadaten erfasst werden können, direkt dargestellt werden. Daneben gibt es natürlich auch Digitalisierungen im nichtvisuellen Bereich. So werden z. B. akustische Analogvorlagen in digitale Formen umgewandelt.

Meine Erfahrungen mit Digitalisierungen und Digitalisaten

Als Student habe ich mit der Digitalisierung von Texten bereits Erfahrung gesammelt. Hierbei handelt es sich jedoch hauptsächlich um Sekundärliteratur, die ich für meine Forschungsarbeiten benötigt habe. Hier nutze ich sowohl Flachbett- als auch Buchscanner. Bilddigitalisierungen habe ich im Rahmen meiner Arbeit im Universitätsarchiv durchgeführt. Aufgrund des jungen Alters der Universität handelt es sich hierbei meist um Analogfotos oder Plakate. Als Digitalisierungswerkzeuge werden im Archiv sowohl ein Flachbettscanner als auch eine Digitalkamera genutzt.

Zur dauerhaften Nutzung halte ich Digitalisierungen für sehr wichtig, da sie die wissenschaftliche Arbeit stark erleichtern. So kann Quellmaterial geschont werden, da man für eine Untersuchung auf das digitale Abbild zurückgreifen kann. Gleichzeitig erleichtert eine Digitalisierung die Zugänglichkeit. So können Digitalisate ohne großen technischen oder finanziellen Aufwand vervielfältigt oder online bereitgestellt werden. Für mich liegt der Nachteil eines Digitalisats vor allem in den technischen Voraussetzungen, die erfüllt sein müssen, um auf das Abbild zuzugreifen. Ohne die entsprechende Hardware und Software ist eine Betrachtung und Auswertung des Dokuments nicht möglich. Zugleich müssen die digitalen Abbilder stets in die aktuellen Formate übertragen werden, um eine dauerhafte Nutzung zu gewährleisten. Ein großer Vorteil der Digitalisierung liegt vor allem auch in der Platzersparnis gegenüber Zettelkopien oder Büchern.