Hexen und Computer – oder: warum "und Computer" nicht genug ist

30. Mai 2017

Valjean und die Frauen – HNR Workshop in Augsburg

Am 25. und 26. Mai fand der „11^th Historical Network Research Workshop“ in Augsburg statt. In den beiden Workshop Einheiten erhielten wir dabei eine grundlegende Einführung in die Historische Netzwerkforschung (von Martin Stark) sowie einen ersten Einblick in Gephi und dessen Funktionen (von Marten During).

Für den Einstieg arbeiteten wir mit einem Probedatensatz, der das Charakternetzwerk von „Les Miserable“ abbildet. Dabei habe ich die Möglichkeit genutzt, erste analytische Schritte zu versuchen. Nach meiner Visualisierung der Daten ergab sich folgendes Netzwerk, differenziert nach Männern (rot) und Frauen (blau):

Dabei bestätigt sich, was bereits die Rohdaten nahelegen: Dass rund 60% der Knoten (hier: Charaktere) Männer sind. Versuchsweise habe ich anschließend alle Kanten (Verbindungslinien, Beziehungen), die Frauen involvieren, ausgeblendet. Das Ergebnis war wie folgt:

Die Frauen (blau) werden damit isoliert. An der Gesamtstruktur des Netzwerks ändert sich aber wenig. Ein auf dem 2. Blick auffälliges Detail: Kein einziger Mann (rote Knoten) wird durch die Ausblendung der Frauen vom restlichen Netzwerk getrennt bzw. isoliert.

Blendet man hingegen alle Kanten aus, die Männer involvieren, zeigt sich folgende Veränderung:

Das Netzwerk verschwindet beinahe vollständig! Ein schwach verbundenes Netzwerk von 16 Frauen bleibt übrig, zahlreiche Frauen werden ohne männliche Verbindung völlig isoliert.

Der Bechdel-Test stellt „Les Miserable“ also kein gutes Zeugnis aus, auch wenn aus den Daten natürlich nicht ersichtlich, ist worüber die Frauen miteinander gesprochen haben. Wesentlich besser schneidet da der HNR Workshop ab: Das abschließende Panel war diesmal ausschließlich mit Frauen besetzt (6 von 6) und ja, es wurde nicht nur über Männer gesprochen!

15. April 2017

XML – Land ahoi im Meer der Tags?

Vor gut zwei Wochen haben wir auf der Spring School „Digitale Geschichtswissenschaften“ in Paderborn auch grundlegende Einblicke in die Erstellung und Auszeichnung digitaler Quelleditionen in XML Format erhalten.

Im Anschluss an meine Quellarbeit im Zuge der Erstellung des „Taler-Kreuzer-Pfennig Rechner“ (der übrigens eigentlich ein Taler-Groschen-Pfennig Rechner ist), erschien es mir sinnvoll für eine intensivere Befassung mit dem Oxygen Editor, die dafür verwendete Rechnung in XML aufzubereiten. Dies erwies sich als eine wesentlich umfangreichere Aufgabe als gedacht. Zwei zentrale Problemstellungen ergaben sich:

I. Tags, Tags und nochmal Tags?

Nachdem ich die Transkription abgeschlossen hatte, sah ich mich mit dem Problem konfrontiert, aus der unglaublichen Fülle an Tags einen sinnvollen Umfang sowie eine angemessene Struktur auszuwählen. Mit Gedanken an den Vortrag von Peter Stadler und die Erläuterungen von Ramon Voges besann ich mich auf die mögliche Fragestellung, um den Detailgrad, den Fokus der Auszeichnung und die Struktur festzulegen. Da es sich um eine Rechnung handelt, sind vor allem drei Aspekte relevant: Wer hat wie viel Geld erhalten und wofür?

Dementsprechend habe ich alle Namen ausgezeichnet (persName) sowie alle angeführten Berufe (name type=“profession“) sowie alle Geldbeträge (measure). Wenn möglich wurde bei den Namen oder Berufen, die angeführten Tätigkeiten hinzugefügt (z.B. role = „guarding“). Zusätzlich habe ich noch alle Orte und Datumsangaben erhoben.

Als grundlegende Inhaltsstruktur wurden <div> entsprechend den Folioseiten gewählt. Textstellen wurden als Paragraphen <p> mit den übereinstimmenden Zeilenumbrüchen geführt. Die Auflistung von Geldbeträgen wurde als Liste angelegt <list>, da auch die einzelnen Listeneinträge <item>, die zentralen Analyseeinheiten darstellen.

II. Taler, Groschen, Pfennige?

Insbesondere die Auszeichnung der sehr wichtigen Geldbeträge hat mich vor große Herausforderungen gestellt. Die Geldbeträge werden im Originaldokument in drei Spalten (Thl, Gl, D) eingetragen und nochmals durch Beistriche getrennt. Die Spalten wurden hier durch entsprechende Tags ersetzt, da eine Reproduktion des ursprünglichen Layouts nicht Ziel der Transkription ist. Die Beträge würden dementsprechend z.B. als „4,7,3,“ transkribiert. Schließlich wurde als Auszeichnung folgende Form gewählt:

<measure type=“currency“ unit=“th-gl-d“ quantity=“04073″>4,7,3</measure>

Damit werden die Zahlen eindeutig als Währung ausgeschrieben. Die Währungseinheit wird mit dem Kürzel „th-gl-d“ also Taler, Groschen, Pfennige bezeichnet. Die Angabe <quantitiy> erlaubt, um gültig zu sein, nur Zahlen, daher wurde ein Zahlenformat aus fünf Zahlen gewählt. Die ersten beiden (04) für den Taler-Betrag. Die zweiten (07) für Groschen, und der letzte für Pfennige (3). Für Pfennige ist dabei eine Stelle ausreichend, da bereits 6 Pfennige einen Groschen ergeben. Ein Beispiel wurde auch im Header unter <samplingDecl> erläutert.

Quo Vadis?

Das Endergebnis dieser Editionsarbeit gestaltet sich wie folgt:

Edition als XML

Edition als HTML

Als abschließende Frage nach dieser Übung und den Lehreinheiten der Spring School verbleibt für mich allerdings noch, wie man eine umfangreiche digitale XML Edition nun tatsächlich implementiert bzw. für die Analyse nutzbar macht. Kurz: Was ist ihr Mehrwert? Nur die Abfrage der Inhalte verschiedener Tags über „XML-Paths“ lohnt alleine den Mehraufwand noch nicht, für diese Auswertung sind die Codings von MAXQDA sowohl analytisch als auch editorisch wesentlich einfacher zu handhaben.

13. April 201713. April 2017

Taler, Kreuzer, Pfennige? – Ein historischer Taschenrechner

Im Zuge der Spring School Paderborn wurde uns von Ramon Voges eine erste Einführung in der Progammiersprache Ruby gegeben. Diese umfasste vor allem grundlegende Rechenoperationen sowie die Abfrage von Input („gets“) und Ausgabe von Output („puts“). Nach ersten Spielereien habe ich meine Fähigkeiten mit dem Programm etwas erweitert und die erste spezifisch historische Problemstellung bewältigt.

Problemstellung

In der Analyse einer Rechnung aus dem Hexenprozess gegen Hermann Buschorn 1654 war ich mit Währungen aus dem 17. Jahrhundert konfrontiert.

Aus den Rechnungen ließ sich ein Wechselkurs von 1 Taler = 36 Kreuzer, 1 Kreuzer = 6 Pfennige ableiten. In dem Versuch verschiedene Summen aus den Rechnungen zu bilden (z.B. die Summierung aller Personalkosten oder aller Verpflegungskosten) ergaben sich jedoch schnell individuelle Summen wie: 70 Kreuzer, 20 Pfennige. Dies entspricht vergleichsweise der Aussage etwas würde 2€ und 467 Cent kosten. Allerdings sind Taler, Kreuzer und Pfennige mit 1:36:6 sehr umständlich umzurechnen. Dieses Problem habe ich mittels eines Ruby Scripts gelöst, das diese Umrechnung übernimmt:

Der TKP_Rechner

Der „TKP-Rechner“ (Taler-Kreuzer-Pfennig Rechner) ermöglicht es, einen beliebigen Betrag bestehend aus Taler, Kreuzer und/oder Pfennigen korrekt zu notieren. Anbei stelle ich das Script zum Download zur Verfügung.

TKP-Rechner zum Download

Der Rechner löst also auf:

„0 Taler, 70 Kreuzer und 20 Pfennige sind korrekt notiert: 2 Taler, 1 Kreuzer und 2 Pfennige!“

Technischer Hintergrund:

Im Grunde werden drei Variablen abgefragt (talerIn, kreuzerIn, pfennigeIn) und in eine Gesamtsumme an Pfennigen (pfennigeTot) addiert. Diese Gesamtsumme wird durch Division und Abrunden (.floor) auf die korrekten Ausgabewerte (talerOut, kreuzerOut, pfennigeOut) verteilt. Zusätzlich wurde eine loop (do-break-end) und eine if-then Abfrage eingefügt, welche die wiederholte Durchführung des Scripts ohne Unterbrechung ermöglicht.

Grundrechenarten:

In einer zweiten Version wurde der Rechner schließlich um die Grundrechenarten ergänzt. Somit können Beträge aus Talern, Kreuzern, Pfennigen addiert und subtrahiert werden, sowie um einen gewählten Faktor multipliziert oder dividiert werden. Das Script erlaubt es dabei, wahlweise mit dem Zwischenergebnis weiter zu rechnen oder eine neue Berechnung durchzuführen. Ebenso wurde die Anpassung des Umrechnungskurses im Script stark vereinfacht.

Update: 13.4.2017
Der TKP-Rechner wurde um die Grundrechenarten ergänzt und der Artikel entsprechend angepasst. Die Funktion der korrekten Notation von Talern, Kreuzern, Pfennigen ist über den Operator „=“ nach wie vor vorhanden.

12. April 201712. April 2017

Buchverleih & Hexenprozess – Grundlegende Datenbankstrukturen

Im Zuge eines Vortrags zur grundlegenden Vermittlung von Datenbankwissen wurden die Teilnehmer der Spring School mit der Aufgabe und Lösung konfrontiert, wie eine simple Datenbank eines Buchausleihsystems für eine Bibliothek aufzubauen wäre. Die Frage war dabei welche Variablen erhoben werden müssen, wie diese organisiert und in Beziehung gesetzt werden sollen.

Grundlage

Grundlegend besteht eine Datenbank aus mehreren Tabellen, die zueinander in Beziehung stehen. Jede Tabelle erfasst dabei Variablen zu einem Datentyp. Ziel ist es dabei möglichst wenige Redundanzen (also Doppeleinträge) zu erzeugen. Eine Datenbank stellt dabei immer eine Abstraktion dar, die Informationen für die Analyse aufbereitet, selbst jedoch erst durch die Interpretation des Forschenden aussagekräftig wird.

Die Lösung für das Buchungssystem war dabei eine Tabelle zu den Personendaten (Bibliotheksausweisnummer, Name, Geburtstag, Alter etc.) eine Tabelle zu den Büchern (Titel, Autor, Verlag etc.) und eine Tabelle zu den Buchungen (Buchungsnummer, Buch ID, Personen ID), welche die beiden anderen Tabellen zueinander in Bezug setzt.

Problemstellung

Für meine eigene Forschung habe ich derzeit eine einfache Tabelle als „Datenbank“ zu den mir beforschten Hexenprozessakten angelegt. Diese konzentriert verschiedene Informationen wie Namen der Angeklagten, Ort, Datum, Urteil, Folter, biografische Informationen etc. Die Reflexion über den Vortrag und das Beispiel des Buchungssystems hat mich dazu veranlasst, diese Struktur grundlegend zu überdenken. Ziel ist es dabei eine wachsende Datenbank für den eigenen Forschungsbedarf anzulegen, in denen die Informationen zu den Hexenprozessen systematisch erfasst werden.

Konzeption

Ausgehend von der dreigliedrigen Aufteilung des Buchungssystems habe ich dieses in Beziehung zu meinem Material gesetzt. Parallel zu den Personendaten des Bibliothekssystems schien es sinnvoll die Daten der Prozessopfer in einer eigenen Tabelle zu erfassen (Namen, Alter, Geburtsort, Biografie etc.). Der Tabelle zu den Büchern entsprach dabei eine Tabelle zu den Prozessakten/Dokumenten (Dokumentname, Typ, Datum, Quellangabe). Die Parallele zur „Buchung“ stellte abschließend der Prozess dar (Prozessdatum, Ort, Richter, Urteil/Ausgang etc.). In Microsoft Access sah die abschließende Beziehung zwischen den Tabellen dabei in etwa wie folgt aus:

Offene Problemstellung

Diese theoretisch sehr einfache Konzeption stieß jedoch in der Praxis auf ein spezifisches Problem, die Definition des „Prozesses“. Während Personen und Dokumente sehr eindeutig zu definieren sind, erweist sich die Definition des juristischen Prozesses als sehr schwierig.

Nimmt man an, ein Prozess sei eine Einheit aus Anklage-Verhör-Urteil, so stößt man auf das Problem, der fragmentarischen Überlieferung. Wie ist beispielsweise ein Dokument zu fassen, das den Foltertod einer Angeklagten erfasst (wie in Hainburg 1617/18 Mahrech Legeschürzin)? Offenbar geht dem ein juristischer Prozess voraus, weder Urteil, noch Anklage, noch Verhör oder Richter sind aber bekannt. Selbst wenn man hier den Rahmen weit spannt und feststellt, jeder Prozess der zumindest durch Urteil, Verhör oder Anklage greifbar wird, wird als einzelner Eintrag erfasst, stellt sich noch ein weiteres Problem.

Sollen Einzel- oder Sammelprozesse erfasst werden? Sind beispielsweise die 19 in Hainburg von November 1617 bis April 1618 zu Tode gekommenen Frauen einem gemeinsamen Prozess zuzuordnen? Oder handelt es sich in der Erfassung in der Datenbank um 19 Einträge? Die Prozesse werden in drei Urteilen behandelt, also könnte man diesen Prozess auch als drei Prozesse erfassen. Was ist jedoch mit den 18 in Rostock 1584 hingerichteten Personen? Sie verbindet teilweise ein gleicher Hinrichtungstag, ob die Prozesse getrennt oder gemeinsam geführt wurden, lässt sich nicht feststellen. Wo ist hier die Grenze zwischen unerwünschter Redundanz und übermäßiger (möglicherweise künstlicher) Zusammenfassung zu ziehen?

Diese Problemstellung konnte bisher noch nicht befriedigend geklärt werden, verdeutlicht aber wiederum, dass eine Datenbank eine Abstraktion vom Material darstellt, die keineswegs „neutral“ ist und genau reflektiert und begründet werden sollte.

6. April 20176. April 2017

The Magic of Data Analysis

Um die analytischen Potentiale von MAXQDA zu verdeutlichen sowie ein Beispiel für eine Ergebnisaufbereitung zu geben, stelle ich folgend zwei Ressourcen zur Verfügung, die aus meiner Masterarbeit entstanden sind.

Dieses Poster habe ich für einen „Call for Posters“ der MQIC2017 in Berlin entworfen. Es visualisiert und erläutert vier „quantitative“ Analyseverfahren aus meiner Masterarbeit: Die Häufigkeitsanalyse, die Verteilungsanalyse, die Überschneidungsanalyse und die Strukturanalyse. Der Anspruch des Posters ist es dabei, selbsterklärend zu sein und den Nutzen der vier Analyseverfahren, bzw. der entsprechenden Tools aus MAXQDA, zu verdeutlichen.

Alle 17 Postereinreichungen sowie die Siegerposter der MQIC können auf der Website der Tagung eingesehen werden. MQIC Poster Session

Ein näherer Einblick in die Fragestellung, Quellen und Methoden meiner Arbeit kann aus meiner Präsentation „Inhaltsanalyse in der Hexenforschung“ im Zuge einer Tagung des AKIH (Arbeitskreis Interdisziplinäre Hexenforschung) gewonnen werden. Inhaltsanalyse in der Hexenforschung

5. April 20176. April 2017

Hitler und „gott*“

Im Zuge der Spring School wurde uns als Übungsaufgabe gestellt, die Analysepotentiale des Text Mining Tools Voyant zu erproben. Quellbasis bildeten 13 Reden Adolf Hitlers von 1933 bis 1945. Ich habe hierfür folgende Aufgabenstellung aufgegriffen:

„Testen Sie die verschiedenen Tools aus. Nutzen Sie verschiedene Indikatoren für Abfragen, die sich aus der Fragestellung nach religiösen Dimensionen im Nationalsozialismus ergeben.“

Als Ausgangspunkt habe ich die 13 Reden in Voyant hochgeladen und als einen ersten Indikator den Begriff „gott*“ gewählt. Die Frage war dabei welche Rolle Gott als Person aber auch als Wortkombination wie „Gottesdiener“ in der Rhetorik Hitlers spielte. Dafür wurde die relative Häufigkeit des Begriffes „gott*“ in den 13 Reden über das Tool Trends ausgewertet.

Hier fällt deutlich auf, dass die Rede im Sportpalast 1940 (Nr.8) eine deutliche Häufung des Begriffs zeigt. Anschließend wurde das Tool MicroSearch verwendet, um einen detaillierten Einblick in die Verteilung dieses Begriffs auf die Reden zu bekommen.

Hierbei fällt auf, dass die Rede im Sportpalast 1940 sehr kurz ist, die Rede davor, im Reichstag 1939, aber ebenfalls das Suchwort „gott*“ häufig enthält, durch ihre Länge jedoch in der relativen Häufigkeit nicht so deutlich auffällt. In absoluter Häufigkeit ist mit je 12 Treffern das Suchwort „gott*“ in beiden Reden gleich häufig.

Im Sinne eines „Blended Readings“ nach Mathias Lemke wurden nun die beiden Reden mittels „Close Reading“ (qualitativem Lesen im Kontext) überprüft. Die Rede von 1940 wurde dafür ganz gelesen, da sie auch nur sehr kurz ist. Darin greift Hitler die „Engländer“ an, sich als von Gott auserkoren zu stilisieren und im Auftrag Gottes auch zum Schutze der Christen zu handeln. Dabei stellt er den Begriff „Gott“ als Feindbild bzw. ideologische Legitimation der Engländer dem deutschen Volk gegenüber.

In der wesentlich längeren Rede von 1939 im Reichstag wurde die Stelle mit Erwähnung des Begriffes „gott*“ gesucht und gelesen. Darin thematisiert Hitler wiederum die Stilisierung der Alliierten als „Diener Gottes“ und „Retter des Christentums“, spricht aber auch die ambivalente Haltung des Reichs zum Christentum an. Folgendes Zitat vermittelt dabei einen sehr deutlichen Eindruck zur Haltung des NS-Regimes gegenüber deutschen Christen und dem christlichen Ausland:

„Die Sympathie oder das Mitleid für verfolgte Gottesdiener kann es also nicht sein, was das Interesse der demokratischen Staatsbürger [der Alliierten, Anm.] an einzelnen in Deutschland mit dem Gesetz in Konflikt geratenen Priestern mobilisiert, sondern es ist das Interesse am deutschen Staatsfeind. Hier aber mag man eines zur Kenntnis nehmen:
Den deutschen Priester als Diener Gottes werden wir beschützen, den Priester als politischen Feind des Deutschen Reiches werden wir vernichten.“
[Hitler: Rede im Reichstag 1939]

Hier zeigt sich meiner Einschätzung nach ein Verständnis, das Treue zu „Reich und Führer“ deutlich über die Religion stellt. Wo das Christentum oder die Kirche das „Reich“ unterstützt, ist es willkommen. Wo es als Gegenkraft mobilisiert wird, ist es Feindbild.

Ebenso zeigt sich hier das Potential von Voyant für „Blended Reading“. Innerhalb einer sehr kurzen Zeit (ca. 20 Minuten) konnte aus einem umfangreichen Quellkorpus ein erstes Zwischenergebnis zur Beantwortung der Forschungsfrage gewonnen werden.

3. April 20173. April 2017

Warum „und Computer“ nicht genug ist

Zur 1. Sitzung der Spring School Paderborn „Digitale Geschichtswissenschaften“, möchte ich auf Basis des folgenden Zitats eine Reflexion anschließen:

Is it academically legitimate for a PhD student to write one of his or her exams in the general area of „Computers and blank“ where ‚blank‘ is his or her field of study? … There are also very good arguments against allowing such an exam. The computer does function, after all, more like a „tool“ than a „method“, and we seldom allow exams in „tools“. (Humanist 1:662)

Dieser Position pflichte ich voll bei und möchte mich damit klar gegen die (hoffentlich fiktive) Ansicht stellen „Computer“, oder auch eine spezielle Software, sei bereits eine Methode.

Eine explizite und reflektierte Methode macht nachvollziehbar wie wir eine gestellte Forschungsfrage zu beantworten gedenken. Sie steckt sich eine Forschungsfrage als Ziel und beschreibt die einzelnen Schritte, die nötig sind, um eine Beantwortung dieser Frage zu ermöglichen. Natürlich können einzelne dieser Schritte den Einsatz von Computersoftware umfassen. Die Software bleibt dabei jedoch ein Werkzeug, häufig ein sehr spezifisches, dass die Beantwortung dieser Frage erleichtert und teilweise erst ermöglicht, jedoch sagt die Software selbst nur sehr bedingt etwas über die Form ihres Einsatzes aus und schon gar nicht über die Interpretation, der durch die Anwendung der Software erlangten Ergebnisse.

In meiner eigenen Forschungsarbeit im Zuge meiner Masterarbeit unterscheide ich daher auch klar zwischen Methode und Werkzeug/Software. Die von mir verwendete Software ist MAXQDA, ein Programm zur qualitativen Textanalyse des Berliner Softwareunternehmen VERBI, die methodische Basis ein allgemeines Ablaufmodell auf Basis von Philipp Mayrings „Qualitativer Inhaltsanalyse“. Methode und Werkzeug sind dabei insofern verzahnt, da die Methode die Anwendung der Software durch Zielsetzung und Arbeitsschritte steuert:

Werkzeug: MAXQDA

Methode: Qualitative Inhaltsanalyse

(hier: Allgemeines Ablaufmodell. Mayring: Qualitative Inhaltsanalyse. S.62)

Oder illustrativer gesprochen: Das Billy-Regal von Ikea braucht nicht nur alle Bauteile (Quellen) und einen Schraubendreher (Werkzeug) sondern eben auch einen Bauplan (Methode). Natürlich kann man selbiges auch ohne Bauplan zimmern, doch sofern man nicht immens erfahren im Umgang mit der Aufstellung skandinavischer Diskontermöbel ist, setzt man sich der Gefahr aus, dem Ganzen schnell eine sehr schiefe Optik zu verleihen.