Digitalisierung

Im Rahmen der Lerneinheit „Digitalisierung- Vom Scannen bis zum Urheberrecht“ haben wir uns unter anderem mit den technischen Voraussetzungen der Digitalisierung beschäftigt. Malte Rehbeins Aufsatz „Digitalisierung“ thematisiert diese und erläutert darüber hinaus die Nutzungsmöglichkeiten von Digitalisaten in den Kultur- und Geisteswissenschaften (Digital Humanities). Im Folgenden werde ich die für mich wichtigsten Aspekte des Textes zusammenfassen und herausstellen mit welchen Anwendungen und Phänomenen ich bereits gearbeitet und Erfahrungen gemacht habe.

 

Rehbein erklärt zunächst wichtige Begriffe, die im Zusammenhang mit Digitalisierung von Bedeutung sind. Basis der computer-gestützten Untersuchung ist ein digitales Abbild des analogen Originals. Häufig wird dieses digitale Abbild auch als Digitalisat bezeichnet. Diese Abbilder in Form von Mikrofilmen oder Reprodrucken erfüllen dann die Aufgabe des Originals als sogenanntes Surrogat. An dieser Stelle sei bereits ein Vorteil der Digitalisierung gegenüber analogen Verfahren der Reproduktion erwähnt, denn die Übertragung eines Digitalisats ist prinzipiell ohne Verluste und identisch möglich.

Handelt es sich bei dem erstellten Abbild um ein optisches wird von einer Bilddigitalisierung gesprochen. Diese Bilddigitalisierung ist laut Rehbein Voraussetzung für eine weitere Verarbeitung, denn neben den digitalen Bildern gibt es ebenfalls Verfahren, mit denen der in den Bildern transportierte Text transkribiert werden kann.

Bei der Bild- bzw. Tondigitalisierung werden optische beziehungsweise akustische Sensoren digitalisiert. Diese Formen der Digitalisierung sind für die Digital Humanities von besonderem Interesse.

 

Grundlagen digitaler Bilder:

Es werden zwei Möglichkeiten unterschieden Bilder als digitale Daten zu repräsentieren: Raster- und Vektorgrafiken.

  • Rastergrafiken

In einer Rastergrafik werden die einzelnen Bildpunkte (Pixel) mit ihrer Farbtiefe in einem Koordinatensystem erfasst. Die Farbtiefe wird durch den Bitcode bestimmt. Die Farbauswahl wird größer, umso mehr Bits zur Beschreibung eines Pixels vorhanden sind. Wurden früher noch mehrheitlich schwarz/weiß Bilder bei dem Digitalisierungsverfahren erzeugt, ist die Bilddigitalisierung in Farbe heute das gängige Verfahren. Die Rastergrafik, die aus Bildgröße und Farbtiefe gebildet wird, legt auch den Speicherbedarf fest. Die Datenmengen, die bei der Digitalisierung entstehen, können enorm sein und durch die Anschaffung von Speichermedien und damit verbundene Sicherung der Daten in neue Formate sowie die Sicherstellung ihrer Zugänglichkeit zu ausgiebiger Arbeit und Kosten führen. Mit Hilfe von Bildkompression ist es möglich die Datengrößen im Speichermedium zu reduzieren. Bei der verlustbehafteten Kompression wird durch das Entfernen von als überflüssig betrachteten Informationen versucht die Menge an Daten zu verringern. Dies kann allerdings dazu führen, dass eine Verschlechterung des Bildes beispielsweise beim Vergrößern ersichtlich wird. Im Gegensatz dazu gibt es die verlustfreie Kompression, bei der keine Informationen verloren gehen, da die Daten durch Zusammenfassung von Redundanzen nur anders organisiert werden. Es ist zwar mit mehr Rechenaufwand verbunden, benötigt aber weniger Speicherplatz. Auch wenn diese verlustfrei komprimierten Bilder wieder getreu in das Original zurückgeführt werden können, ist dies nur möglich, wenn der Algorithmus gespeichert wurde und vor allem eine Software existiert, mit der die Dekomprimierung auch in Zukunft möglich ist.

  • Vektorgrafiken

Neben der zuvor beschriebenen Rastergrafik finden auch Vektorgrafiken bei Repräsentation von Bildern als digitale Daten Verwendung. Hier wird das Bild durch Zeichenroutinen, durch Informationen zur Geometrischen Form und Gestaltung, zusammengesetzt. Vektorgrafiken werden in den Digital Humanities vor allem zur Darstellung von Geoinformationen oder zwei- bzw. dreidimensionalen Modellen verwendet. Ein Vorteil der Vektorgrafiken gegenüber den Rastergrafiken ist die verlustfreie und umkehrbare Skalierung, denn die Skalierung von Rastergrafiken ist häufig mit einem Qualitätsverlust verbunden. Darüber hinaus ist in der Regel auch der Speicherbedarf der Vektorgrafiken geringer, da er unabhängig von Bildgröße und Farbtiefe ist.

Dennoch werden bei der Digitalisierung vermehrt Rasergrafiken erzeugt, da Vektorgrafiken technisch sehr komplex sind.

 

Verfahren der Bilddigitalisierung:

Digitalkameras und Scanner sind in den Kulturwissenschaften die meist eingesetzten Verfahren bei der Bilddigitalisierung.

Bei der Digitalkamera kann durch die Fokussierung, die Größe der Blendenöffnung, die Verschlusszeit sowie die Brennweite des Objektivs die Qualität des Bildes beeinflussen.

Scanner sind Datenerfassungsgeräte, die Objekte nach vorgegebenen Mustern oder Rastern systematisch abtasten und die aufgenommenen Signale in digitale Form umwandeln. Dabei werden verschiedene Arten von Bildscannern unterschieden. Der Flachbettscanner ist vor allem zum Scannen von zweidimensionalen Objekten geeignet. Das zu scannende Objekt wird dabei nach unten auf eine Glasplatte gelegt und durch einen beweglichen Spiegel, der das Licht auf einen fest installierten Spiegel und von da aus durch die Linse auf den Bildsensor wirft. Um ein durchgängiges scharfes Bild beim Flachbettscanner zu erhalten, muss die Vorlage flach auf der Glasplatte aufliegen. Dies gestaltet sich beim Scannen von Büchern durch die Bildung als schwierig. Daher wird speziell für die Digitalisierung von Büchern Buchscanner eingesetzt. Im Gegensatz zum Flachbettscanner verwendet der Buchscanner zwei Digitalkameras. Diese werden auf die Lichtverhältnisse und auf die Größe der Buchseiten eingestellt. Das Buch wird auf eine Buchwippe gelegt und die Seite aufgeschlagen, die eingescannt werden soll. Dann wird eine Einzel- oder Doppelseite des Buches abgelichtet. Damit Unschärfen verursacht durch Wölbungen werden durch mechanisches Fixieren oder durch eine Aufgedrückte Glasplatte vermieden. Das Weiterblättern erfolgt von Hand bzw. bei größeren Digitalisierungsprojekten durch einen Scan-Roboter, der die Seiten ansaugt und automatisch umblättert.

Analoge Verfahren sind Mikroformen, wie Mikrofiche und Mikrofilme. Hier werden stark verkleinerte analoge Abbildungen auf Filmmaterial erstellt. Aufgrund der langen Haltbarkeit des Materials werden diese Verfahren vor allem zur Langzeitarchivierung eingesetzt.

 

Parameter:

Die technischen Parameter der Digitalisierung bestimmen die Aussagekraft eines Digitalisats und dessen Verwendbarkeit. Bei der Nutzung von digitalen Daten ist es unabdingbar die Parameter ihrer Entstehung zu kennen und auch kritisch zu prüfen, ob bzw. wie die Daten für den Forschungszweck geeignet sind.

 

Erschließung der Digitalisate:

Bei der Erschließung von Digitalisaten spielen Metadaten eine wichtige Rolle, da sie unter anderem die Auffindbarkeit der Objekte ermöglichen. Rehbein unterscheidet dabei vier Typen von Metadaten, die für die Nutzung von Bilddigitalisaten von Bedeutung sind: technische, deskriptive, strukturelle und administrative Metadaten. Dabei handelt es sich zwar um klar definierte Kategorien, aber sie können parallel angewendet werden. Für die jeweiligen Fachbereiche gibt es darüber hinaus weitere Standards und Spezifikationen. Zu den international gängigen Metadaten-Standards im Bereich der Digitalisierung des kulturellen Erbes zählt das uns vorgestellte TEI. Die Richtlinien und XML-Schemata ermöglichen eine Kodierung elektronischer Texte,

 

Textdigitalisierung:

Soll beispielsweise ein Buch digitalisiert werden reicht es nicht aus nur die geometrischen Positionen der einzelnen Pixel in einer Rastergrafik zu speichern. Der Text muss in einem weiteren Bearbeitungsschritt aus der Rastergrafik extrahiert werden und daraus Zeichencodes generieren. Zur Texterfassung, Transkription, können zwei Verfahren angewendet werdet. Zum einen kann bei der manuellen Texterfassung durch Abtippen der Vorlage per Hand der Text erfasst werden. Dabei besteht allerdings die Gefahr von Lese- und Flüchtigkeitsfehlern sowie Interpretationsunterschiede bei schlecht lesbarer Handschrift. Dieser Problematik kann entgegengewirkt werden, indem zwei Personen unabhängig voneinander den gleichen Text transkribieren und anschließend durch einen Dritten verglichen werden. Zum anderen kann das Verfahren der automatischen Texterfassung, Optical Character Recognition (OCR) angewendet werden. Dieses Verfahren der Texterkennung lässt sich in drei Phasen gliedern. Bei der Vorverarbeitung wird die Rastergrafik optimiert, um Verzerrungen und Rotationen der Vorlage auszugleichen. Darauf folgt die eigentliche Zeichenerkennung, die Binarisierung. Als letzten Schritt schließt sich die Nachbereitung an, um die Qualität des erkannten Textes zu optimieren.

Maßgeblich für die Qualität der Texterkennung ist die Erkennungsgenauigkeit. Diese entscheidet darüber, ob und wie brauchbar ein erfasster Text ist. Die Erkennungsgenauigkeit ist von der Qualität der Vorlage abhängig. Ein moderner Buchdruck erreicht also eine höhere Genauigkeit als beispielsweise eine Faktur aus dem 19. Jahrhundert.

 

Weitere Digitalisierungsverfahren:

Neben der zuvor beschriebenen zweidimensionalen Bilddigitalisierung und damit verbundenen Texterfassung gibt es noch weitere Verfahren der Digitalisierung. Insbesondere die dreidimensionale Objektdigitalisierung gewinnt immer mehr an Bedeutung. Geht bei dem zweidimensionalen Verfahren Eigenschaften, wie Wölbungen; Gravuren, Beschaffenheit des Bucheinbandes verloren, können sie mit Hilfe des 3D-Modelss dargestellt werden. Neben visuellen Verfahren zur Digitalisierung gibt es auch Verfahren aus dem nicht visuellen Bereich, wie die Audiodigitalisierung.

 

Während meines Studiums habe ich bereits ein paar Erfahrungen mit Digitalisierung gesammelt. Im Rahmen meiner wissenschaftlichen Arbeiten habe ich sowohl Flachbettscanner als auch Buchscanner verwendet. Darüber hinaus ist es mir auch möglich auf Digitalisate zuzugreifen. Dadurch ist mir die Bedeutung und Wichtigkeit von Digitalisierungen besonders deutlich geworden. Gerade im universitären Kontext ist es eine enorme Erleichterung und Zeitersparnis auf Digitalisate zugreifen zu können. Obwohl die Frage nach der Nachhaltigen Nutzung der Digitalisate immer noch diskutiert wird, haben meines Erachtens Digitalisate viele Vorteile. In der Spring School 2017 konnte ich weitere Erfahrungen sammeln und einen genaueren Einblick in die technische Verfahren der Digitalisierung bekommen.

Überlieferung der Urkunden

Die Originale der Urkunden befinden sich im Archiv des Studienfonds der Erzbischöflichen Akademischen Bibliothek Paderborn.

Für die Arbeit an unserer digitalen Quellenedition lagen uns Fotografien und Abschriften der Urkunden vor. Die Abschriften stammen aus der Quellensammlung „Urkunden zur Gründung des Jesuitenkollegs und der Universität in Paderborn 1604-1615“ von Friedrich Gerhard Hohmann.

Hohmann hat bei der Erstellung seiner Quellensammlung selbst auf Abschriften der Originalurkunden zurückgegriffen. Sie sind alle auf Latein und liegen ohne deutsche Übersetzung vor. Festzustellen ist außerdem, dass die Gestaltung und Zustand der Urkunden bei Hohmann im Vorwort beschrieben werden, die Abschriften also nur inhaltlich übereinstimmen. Mithilfe von Metadaten ist es möglich bei der Erstellung der digitalen Quellensammlung diese äußeren Merkmale hinzuzufügen, sodass wichtige Informationen nicht verloren gehen.

Auch Josef Freisen bietet in seinem Werk „Die Universität Paderborn – Quellen und Abhandlungen von 1614 –  1808″  aus dem Jahr 1898 Transkriptionen der Urkunden.