CATMA

Was ist CATMA?

Catma 5.0 ist ein webbasiertes Tool zur Annotation schriftlicher Daten. Annotationen sind (z.B. linguistisch motivierte) Anreicherungen von Texten mit zusätzlichen Informationen, die über eine ausdrucksseitige Suchanfrage nur schwer werden können, etwa zur Metaphorik, Attribuierung oder zu Strategien der Themenentfaltung. Texte lassen sich in Catma auf verschiedenen Ebenen und auch kollaborativ mit mehreren Annotatoren gleichzeitig codieren. Das Taggen von Textteilen bietet nicht nur Unterstützung beim close reading und der Deutung von Texten. Gezielte Suchanfragen erleichtern vor allem das Entdecken sprachlicher Mittel, die seriell in den vorher ausgezeichneten (=annotierten) Umgebungen auftreten. Das Tool vollzieht somit methodisch eine Pendelbewegung zwischen qualitativen und quantitativen Auswertungsschritten. Es unterstützt gängige Formate wie UTF-8, docx und pdf und erlaubt Suchanfragen mit regulären Ausdrücken.

Vorteile:

  • einfache, intuitive Bedienung
  • übersichtlicher Workflow von der Korpuserstellung bis zur Analyse
  • leichter Datenexport z.B. in Excel
  • komplexe Suchanfragen möglich
  • integrierter POS-Tagger
  • erleichtert die kollaborative Annotation im Team
  • webbasiert, kein Download, unabhängig vom Betriebssystem

Nachteile:

  • generell hoher Zeitaufwand für das manuelle Annotieren
  • keine Ansicht des Originaldokuments
  • nur für kleine Korpora

Nutzungsszenario:

Häufig sind es beiläufige Beobachtungen im Alltag, die zu einer linguistisch interessanten Fragestellung führen. Das können auffällige Formulierungen sein, Mode- und Tabuwörter, aber auch sprachliche Zweifelsfälle. Am Beispiel der relativ neuen Nahrungsmittelkategorie Superfood aus dem aktuellen Ernährungsdiskurs werden im Folgenden die Möglichkeiten der korpuslinguistischen Analyse mithilfe des Annotationsprogramms Catma aufgezeigt.

Ausgangspunkt ist die Beobachtung, dass der aus der Lebensmittelwerbung stammende Anglizismus Superfood in den öffentlichen Medien kontrovers diskutiert wird. Man kann sich nun fragen, mit welchen sprachlichen Mitteln die semantischen Kämpfe über Sinn und Nutzen der Superfoods ausgetragen werden. Treten in befürwortenden und ablehnenden Positionen zur Einordnung von Nahrung als Superfood wiederkehrende Bezeichnungen oder typische Formulierungen auf? Das Spektrum von sachlich-informierenden bis ablehnenden Sprachhandlungsmustern wirkt zunächst sehr breit:

Das leisten die Superfoods (Focus online, 26.10.2018)

Man kann sich Superfoods aufs Brot oder ins Gesicht schmieren, es gibt sogar Hundefutter mit Superfood. (Zeit Magazin, 14.2.2018)

Superfood – Kann diese Superfrucht lügen? (Zeit Magazin, 14.2.2018)

Vergesst hippes Superfood! (Focus online, 7.6.2018)

Wenn man nun danach fragt, wie typischerweise Äußerungen gestaltet sind, die Superfood näher definieren oder die die Kategorie kritisch aufgreifen und ablehnen, wäre es praktisch, Listen zu haben, die einmal alle Äußerungen pro und einmal alle Äußerungen contra Superfoods aufführen. Darüber hinaus ließen sich zwei Übersichten mit Bezeichnungsvarianten erstellen, in denen die als Superfood klassifizierten Nahrungsmittel z.B. durch Adjektive näher beschrieben werden. Diese Liste händisch anzufertigen, wäre ein enormer Aufwand und das Ergebnis wenig nachhaltig. Annotierte Belege lassen sich in Catma hingegen nach verschiedenen Gesichtspunkten sortieren; zudem sind die Annotationen für diverse Suchabfragen nutzbar. Den Workflow bildet die Leiste A ab (Screenshot 1).

Texte für ein Korpus speichern

Zunächst ist unter „Manage Resources“ ein Korpus zusammenzustellen (B). Für die exemplarische Annotation wurden neun Texten ausgewählt, die in den letzten zwölf Monaten zum Thema Superfoods in Online-Artikeln der Zeitschriften Focus, Spiegel und Zeit erschienen sind. Sie wurden hinzugefügt (C) und mit Metadaten versehen (D). Die Texte können direkt über die URL in Catma gespeichert werden, was jedoch eine recht fehlerträchtige Übertragungsart ist, bei der überflüssige Navigationsleisten oder Werbezeilen mitkopiert werden. Daher empfiehlt sich das Speichern in Word oder im Texteditor (z.B. im UTF-8-Format).

Screenshot 1: Übersicht über das Korpus und die enthaltenen Dokumente

Ein Tagset erstellen

Bevor es ans Annotieren geht, muss ein Tagset, d.h. ein Kodierschema erstellt werden (E), das der Kennzeichnung der Texte zugrunde liegt. Tagsets werden in einer Tag Library gespeichert. Das für die Beispielanalyse erstellte Tagset Wertungsdimensionen enthält die beiden Tags kritisch/abwertend und aufwertend mit jeweils drei Subtags (Screenshot 2). Die Architektur des Tagsets kann in Catma jederzeit auch während der Annotation verändert werden. Dies war erforderlich, weil sich herausstellte, dass neben den referierenden Bezeichnungsvarianten für Superfood (Referenz) und den prädizierenden Aussagen (Prädikation) auch Einräumungen vorkommen, auf die dann die eigentliche Kritik oder die Positivbewertung erst folgt nach dem Muster „Jeder weiß: Superfoods sind teuer – trotzdem machen sie fit“ oder „Ganz klar: Die Wirkung von Superfoods ist unbestreitbar – trotzdem gibt es heimische Alternativen.

Screenshot 2: Tagset

Annotieren

Nun kann das eigentliche Annotieren beginnen. Dafür ist es nötig, ein Dokument zu öffnen (C). Anschließend muss unter dem Reiter „Active Tagset“ über „Open Tagset“ ein Tagset aktiviert werden (Screenshot 4). Da die Annotationen in Catma separat gespeichert werden (was den Vorteil hat, dass mehrere Annotationen gleichzeitig angezeigt werden können) muss vor jedem Tagging eine Annotationsdatei erstellt werden. Dies ist unter dem Reiter „Active Annotations“ möglich (Screenshot 3). Alternativ erzeugt Catma diese Markup-Datei nach dem Setzen des ersten Tags automatisch.

Screenshot 3: Selbst erstellte Annotationen
Screenshot 4: Eigene Tags und POS-Tags
Screenshot 5: Annotieren mit dem eigenen Tagset

Ist das Tagset geöffnet, müssen zur Codierung der Zeichen, Wörter, Phrasen oder längerer Textpassagen die entsprechenden Abschnitte mit dem Curser markiert werden. Sie lassen sich anschließend durch einen Klick auf das Tag-Farbquadrat einfärben (Screenshot 5). Sind mehrere Annotationsdateien geöffnet, z.B. von mehreren Personen, wird das Coding dort gespeichert, wo das Häkchen für „Writable“ gesetzt ist (Screenshot 3). Während hier das Häkchen distinkt erscheint, können unter „Visible“ mehrere Annotationen gleichzeitig sichtbar gemacht werden, so z.B. das POS-Tagging und die eigenen Annotationen (Screenshot 4).

Analysen mit dem Query Builder

Auch wenn das Codieren per Mausklick etwas zügiger sein mag als die händische Annotation, wird es korpuslinguistisch in Catma erst interessant mit den nachgelagerten Analysefunktionen. Grundsätzlich kann man wählen zwischen der Analyse einzelner Dokumente („Analyze Document“) oder eines Korpus (unter „More Actions“ in der Corpora-Ansicht „Manage Resources“). Gesucht werden kann sowohl nach konkretem Sprachmaterial (Wörter, Wortbestandteile und Phrasen) als auch nach abstrakten (POS)-Tags. Bei der Formulierung einer Suchanfrage unterstützt der Query Builder, der alle Eingaben in eine Suchsyntax „übersetzt“. Für eine ausführliche Beschreibung einfacher und komplexer, d.h. verfeinerter und weiter gefilterter Suchanfrage ist das Manual zu empfehlen (http://catma.de/wp-content/uploads/2017/05/catma4_manual.pdf).

In der Wörterliste und auch bei der Suche nach Wortformen berücksichtigt Catma stets Groß- und Kleinschreibung (case sensitive). Bei der Suche lässt sich beliebiges Sprachmaterial mit den gängigen regulären Ausdrücken oder mit Platzhaltern, so genannten Wildcards, kombinieren wie z.B. bei der Suchanfrage [wild=“Superfood%“], bei der das Wort Superfood sowie alle Flexionsformen und Komposita aufgelistet werden (Screenshot 6). Über das Häkchen bei „Visible in KWIC“ werden ausgewählte Treffer in der KWIC-Übersicht angezeigt, z.B. nur die Form Superfood (Screenshot 6).

Screenshot 6: Zentrierte Konkordanzen zum Suchterm „Superfood“ in der KWIC-Übersicht

Dank der vorgelagerten Annotation können die Treffer für die Bezeichnung der Superfoods nun nach aufwertenden und abwertenden Bedeutungsaspekten sortiert werden. Im Query Builder muss dafür die Suche nach Tags eingestellt werden (Screenshot 7). In der Übersicht ist erkennbar, dass sowohl auf Bezeichnungsebene als auch in den Prädikationen die kritischen Bewertungen in den ausgewählten Texten überwiegen (Screenshot 8). In den KWIC-Übersichten der auf- und abwertenden referenzierenden Ausdrücke (Screenshot 9 und 10) treten verschiedene, möglicherweise typische Ausdrucksweisen auf: die religiöse Metaphorik bei den abwertenden Bezeichnungsvarianten (z.B. neuen Heil bringenden Superfrüchten, dem heiligen Pfad von Quinoa und Grünkohl) und die Zuschreibung von Gesundheitsfunktionen in den aufwertenden Bezeichnungen (z.B. den ältesten Heilmitteln der Menschheit, wahre Gesundmacher).

Screenshot 7: Auswahlmöglichkeit im Query Builder
Screenshot 8: Überblick über die Verteilung der Tags zu aufwertenden und kritisch-abwertenden Bewertungen im Beispielkorpus „Superfood“
Screenshot 9: Auswahl der referenzierenden aufwertenden Ausdrücke für die KWIC-Übersicht
Screenshot 10: Auswahl der referenzierenden kritisch-abwertenden Ausdrücke für die KWIC-Übersicht

Innerhalb der weiträumig annotierten Prädikationen bieten sich komplexe Suchanfragen an, mit denen nicht nur Inhalte der Kritik, sondern auch typische Wörter und Konstruktionen kritischer Äußerungen im Diskurs um die Superfoods ermittelt werden können. Filtert man beispielsweise alle Adjektive (sowohl attributive als auch prädikative) aus den abwertenden Prädikationen heraus, gewinnt man einen Eindruck davon, wogegen sich die Kritik an der Lebensmittelkategorie Superfoods richtet, und zwar gegen die Zuschreibung moralischer Werte an Nahrungsmittel (Einteilung von Nahrungsmitteln in Gut und Böse so gefährlich), gegen religiöse Ritualisierungen (Parallelen zu religiösem Extremismus) und auch gegen Verkaufsstrategien im Gewand von Gesundheitshandeln (teuren und angepriesenen Migranten). Auf der befürwortenden Seite stehen Medizinalisierungen: Superfoods haben antibakterielle Wirkung, sie entfalten ein entzündungshemmendes Potential und enthalten ähnlich wie Arzneien heilende oder präventiv wirksame Inhaltsstoffe (reich an X). Diese Zusammenstellung zeigt, dass Auswertungen auf der Basis quantitativer Ergebnisse Interpretationen einerseits ermöglichen und andererseits auch erfordern. Die 219 bzw. 93 Adjektive in den auf- bzw. abwertenden Textpassagen können für die KWIC-Übersicht durch das Häkchen in „Visible in KWIC“ ausgewählt und sortiert werden. Zudem ist der Export ausgewählter Treffer in Form von Excel-Tabellen möglich.

Visualisierung

Schließlich stehen im Anschluss an die Analyse zwei Visualisierungsmöglichkeiten zur Verfügung. Wortverbindungen können ausgehend von einer gewählten Wortform als „Double Tree“ angezeigt werden (Screenshot 12). Um die Verteilung und den Verlauf einer oder mehrerer Wortformen für jeden einzelnen Text aus dem Korpus zu erfassen, kann darüber hinaus eine „Distribution Analysis“ erstellt werden.

Screenshot 11: Ausgewählte Adjektive (ADJA/ADJD) im Umfeld kritisch-abwertender Prädikationen in der KWIC-Übersicht
Screenshot 12: Ausgewählte Adjektive (ADJA/ADJD) im Umfeld aufwertender Prädikationen in der KWIC-Übersicht
Screenshot 13: Visualisierung der Wortverbindungen zur Wortform Superfood durch einen „Double Tree“

Wer die Ergebnisse, das Tagset, Dokumente oder das gesamte Korpus anderen zur Verfügung stellen möchte, hat die Möglichkeit, diese Daten über die jeweils eingerichteten „Share“-Buttons im „Read“- oder im „Write“-Modus zu teilen. So können von mehreren Personen Annotationen zu denselben Texten erstellt werden, entweder mit demselben Tagset, um anschließend Abweichungen und Übereinstimmungen zu ermitteln (Annotator-Agreement), oder mit unterschiedlichen Tagsets, so dass kollaborativ auf mehreren Ebenen annotiert wird. Eine Mehrebenen-Annotation kann wiederum für komplexe Suchanfragen genutzt werden. Bezogen auf das vorliegende Beispiel ließe sich beispielsweise zusätzlich über eine Metaphernannotation erheben, welche metaphorischen Ausdrücke im Umfeld von Pro- und Contra-Argumentationen auftreten.

Weiterführende Links:

http://catma.de/

http://catma.de/wp-content/uploads/2017/08/CATMA_Tutorial_2017_08_03.pdf

http://catma.de/wp-content/uploads/2017/05/catma4_manual.pdf