XML – Land ahoi im Meer der Tags?

Vor gut zwei Wochen haben wir auf der Spring School „Digitale Geschichtswissenschaften“ in Paderborn auch grundlegende Einblicke in die Erstellung und Auszeichnung digitaler Quelleditionen in XML Format erhalten.

Im Anschluss an meine Quellarbeit im Zuge der Erstellung des „Taler-Kreuzer-Pfennig Rechner“ (der übrigens eigentlich ein Taler-Groschen-Pfennig Rechner ist), erschien es mir sinnvoll für eine intensivere Befassung mit dem Oxygen Editor, die dafür verwendete Rechnung in XML aufzubereiten. Dies erwies sich als eine wesentlich umfangreichere Aufgabe als gedacht. Zwei zentrale Problemstellungen ergaben sich:

I. Tags, Tags und nochmal Tags?

Nachdem ich die Transkription abgeschlossen hatte, sah ich mich mit dem Problem konfrontiert, aus der unglaublichen Fülle an Tags einen sinnvollen Umfang sowie eine angemessene Struktur auszuwählen. Mit Gedanken an den Vortrag von Peter Stadler und die Erläuterungen von Ramon Voges besann ich mich auf die mögliche Fragestellung, um den Detailgrad, den Fokus der Auszeichnung und die Struktur festzulegen. Da es sich um eine Rechnung handelt, sind vor allem drei Aspekte relevant: Wer hat wie viel Geld erhalten und wofür?

Dementsprechend habe ich alle Namen ausgezeichnet (persName) sowie alle angeführten Berufe (name type=“profession“) sowie alle Geldbeträge (measure). Wenn möglich wurde bei den Namen oder Berufen, die angeführten Tätigkeiten hinzugefügt (z.B. role = „guarding“). Zusätzlich habe ich noch alle Orte und Datumsangaben erhoben.

Als grundlegende Inhaltsstruktur wurden <div> entsprechend den Folioseiten gewählt. Textstellen wurden als Paragraphen <p> mit den übereinstimmenden Zeilenumbrüchen geführt. Die Auflistung von Geldbeträgen wurde als Liste angelegt <list>, da auch die einzelnen Listeneinträge <item>, die zentralen Analyseeinheiten darstellen.

II. Taler, Groschen, Pfennige?

Insbesondere die Auszeichnung der sehr wichtigen Geldbeträge hat mich vor große Herausforderungen gestellt. Die Geldbeträge werden im Originaldokument in drei Spalten (Thl, Gl, D) eingetragen und nochmals durch Beistriche getrennt. Die Spalten wurden hier durch entsprechende Tags ersetzt, da eine Reproduktion des ursprünglichen Layouts nicht Ziel der Transkription ist. Die Beträge würden dementsprechend z.B. als „4,7,3,“ transkribiert. Schließlich wurde als Auszeichnung folgende Form gewählt:

<measure type=“currency“ unit=“th-gl-d“ quantity=“04073″>4,7,3</measure>

Damit werden die Zahlen eindeutig als Währung ausgeschrieben. Die Währungseinheit wird mit dem Kürzel „th-gl-d“ also Taler, Groschen, Pfennige bezeichnet. Die Angabe <quantitiy> erlaubt, um gültig zu sein, nur Zahlen, daher wurde ein Zahlenformat aus fünf Zahlen gewählt. Die ersten beiden (04) für den Taler-Betrag. Die zweiten (07) für Groschen, und der letzte für Pfennige (3). Für Pfennige ist dabei eine Stelle ausreichend, da bereits 6 Pfennige einen Groschen ergeben.  Ein Beispiel wurde auch im Header unter <samplingDecl> erläutert.

Quo Vadis?

Das Endergebnis dieser Editionsarbeit gestaltet sich wie folgt:

Edition als XML

Edition als HTML

Als abschließende Frage nach dieser Übung und den Lehreinheiten der Spring School verbleibt für mich allerdings noch, wie man eine umfangreiche digitale XML Edition nun tatsächlich implementiert bzw. für die Analyse nutzbar macht. Kurz: Was ist ihr Mehrwert? Nur die Abfrage der Inhalte verschiedener Tags über „XML-Paths“ lohnt alleine den Mehraufwand noch nicht, für diese Auswertung sind die Codings von MAXQDA sowohl analytisch als auch editorisch wesentlich einfacher zu handhaben.

Schreibe einen Kommentar