Item- und Skalenanalyse

Robert Kordts-Freudinger

Sie haben mit Ihrem Fragebogen oder Beobachtungsbogen oder mit einer anderen Erhebungsmethode quantitative Daten gesammelt! Herzlichen Glückwunsch! Nun geht es darum, diese Daten sinnvoll auszuwerten.

Die deskriptive Auswertung der Daten geschieht in der Regel nicht auf der Ebene der einzelnen Fragen (Items), sondern auf der Ebene der Skalen (oder Subtests) Ihrer Erhebung. Die folgenden Kapitel beschreiben, wie Sie diese Skalen bilden können.

 

  1. Warum Skalen bilden?

Ein Beispiel:

Sie haben 40 Schüler/innen zu ihrem Leseselbstkonzept und zu ihrer Lesemotivation mit einem Fragebogen befragt. Der Fragebogen hat 14 Items, von denen 8 das Leseselbstkonzept und 6 die Lesemotivation erfassen sollen. Die 5-stufige Antwortskala geht von ‚0‘ (trifft überhaupt nicht zu) bis ‚4‘ (trifft voll und ganz zu).

(vermutete) Skala Item-Nummer Formulierung des Items
Leseselbstkonzept 1 Ich mag Lesen.
2 Ich hasse es, zu lesen.
3 Das Lesen fällt mir immer extrem leicht.
4 Lesen fällt mir sehr leicht.
5 Lesefähigkeiten sind für mich später wichtig.
6 Ich bin ein guter Leser.
7 Mir macht Lesen Freude.
8
Lesemotivation 9 Ich habe Lust auf’s Lesen.
10 Ich habe selten Zeit, ein Buch zu lesen.
11 Meine Eltern belohnen mich, wenn ich etwas lese.
12
13
14

Wie im Beitrag zu Fragebögen kurz erklärt, bilden in der Regel mehrere Items eine Skala. Dies erhöht in der Regel die Reliabilität (Zuverlässigkeit) der Erfassung (siehe unten), die eine wichtige Voraussetzung für eine hohe Validität ist. Diese Skala und damit alle dazu gehörigen Items sollen ein Merkmal erfassen. In unserem Beispiel sollen also die 8 Items zusammen das Leseselbstkonzept erfassen.

Diese Skalen sollten die folgenden Eigenschaften aufweisen (Pospeschill, 2013, S. 114):

  • verschiedene Schwierigkeiten der Items: Erfassung verschiedener Ausprägungsgrade des Merkmals
  • hohe Reliabilität: verlässlich und genaue Messung
  • hohe Trennschärfe der Items: Differenzierung von Personen mit hoher Merkmalsausprägung von Personen mit schwacher Merkmalsausprägung
  • Homogenität (Dimensionalität): Die Items der Skala erfassen nur eine Dimension des theoretischen Konstrukts
  • hohe Testobjektivität: eindeutig auswertbar
  • hohe Testvalidität: gute Begründung dafür, dass auch wirklich das zu erfassende Konstrukt gemessen wird.

Die alles entscheidende Frage:

Treffen diese Eigenschaften auf Ihre Skala „Leseselbstkonzept“ wirklich zu?

Mithilfe einer Skalenanalyse können Sie Antworten zu den Aspekten der Item-Schwierigkeit, Reliabilität, Trennschärfe und Dimensionalität finden. Wie, wird im Folgenden dargestellt.

Achtung: In machen Fragebögen sind einige Items negativ gepolt. Im Beispiel ist Item Nr. 2 „Ich hasse das Lesen“ anders gepolt als die anderen Items dieser Skala. Wenn die generelle Richtung der Antwortskala eine positive ist, müssen Sie das negativ gepolte Item vor allen Berechnungen umpolen, d.h. niedrige Werte dieses Items durch gespiegelt hohe Werte ersetzen usw. (4 -> 0, 3 -> 1, 2 -> 2, 1 -> 3, 0 -> 4).

 

  1. Item-Schwierigkeit

Zunächst empfehle ich Ihnen die Analyse der einzelnen Items. Hierfür bietet sich der Index der „Item-Schwierigkeit“ an. Dieser Index gibt an, von wie vielen Teilnehmenden das jeweilige Item mit hohen Werten beantwortet wird, also z.B. wie viele Teilnehmende mit „Ja“ oder „Stimme eher/voll zu“ geantwortet haben oder wie viele Teilnehmende die Multiple Choice-Aufgabe korrekt gelöst haben.

Berechnung:

Die Schwierigkeit wird bei Ratingskalen in der Regel wie der Mittelwert (s. Deskriptive Statistik) berechnet: Man summiert die Werte dieses einen Items über alle Teilnehmenden auf und teilt diese Summe durch die Anzahl der Teilnehmenden.

Voraussetzung für die Berechnung der Schwierigkeit als Mittelwert ist, dass die niedrigste Ausprägung des Items mit ‚0‘ kodiert ist und dass die höheren Werte aufsteigend mit ‚1‘, ‚2‘, ‚3‘ etc. kodiert sind. Wie oben gesagt, sollten die Schwierigkeiten der Items, die gemeinsam eine Skala bilden, einen möglichst breiten Bereich abdecken (möglichst unterschiedlich hoch sein). Dabei sollte es nicht zu viele Items mit extremen Schwierigkeiten geben.

Anmerkung:

Im Falle eines hohen Schwierigkeits-Werts (Mittelwerts) nennt man das Item „psychometrisch schwer“, bei niedrigen Werten „psychometrisch leicht“. Im Beispiel könnten also 2 der Items für die Skala Leseselbstkonzept eine niedrige Schwierigkeit (zwischen 0 und 1) aufweisen, z.B. das Item Nr. 3 „Das Lesen fällt mir immer extrem leicht.“

Daneben könnten 4 andere Items eine mittlere Schwierigkeit aufweisen (zwischen 1 und 3) und die restlichen 2 Items könnten eine hohe Schwierigkeit aufweisen (zwischen 3 und 4), z.B. das Item Nr. 5 „Lesefähigkeiten sind für mich später wichtig.“

 

  1. Reliabilität

Da eine hohe Reliabilität wichtige Voraussetzung dafür ist, dass Sie Zusammenhänge und Unterschiede in Ihren Daten finden können, sollten Sie die Reliabilität Ihrer Skala bestimmen (s.a. Beitrag zur Planung).

Hierfür haben Sie verschiedene Rechen-Möglichkeiten. In diesem Kapitel konzentrieren wir uns auf die relativ leicht umsetzbaren Split-Half-Methode und die Methode der internen Konsistenz. Die auch möglichen Methoden Testwiederholung oder Paralleltest erklärt z.B. Bühner (2011, S. 235ff).

  1. a) Split-half

Bei dieser Rechnung wird die Skala, die Sie untersuchen, in zwei gleich große Hälften aufgeteilt und die Ergebnisse beider Hälften miteinander korreliert (in Zusammenhang gesetzt). Je höher die Korrelation zwischen beiden Hälften, desto zuverlässiger erfasst die Skala ein Konstrukt.

Achtung: WELCHES Konstrukt erfasst wird, ist hiermit noch nicht geklärt. Dies ist eine Frage der Validität.

Berechnung:

Sie können die Skala entweder nach 1. Hälfte und 2. Hälfte aufteilen oder (vor allem wenn die Skala aus sehr vielen Items besteht und die Antwortenden „ermüdet“ werden könnten) nach geraden und ungeraden Items aufteilen (sog. odd even-Methode).

Im Beispiel könnten Sie für die Skala Leseselbstkonzept eine Subskala mit allen Items mit einer ungeraden Nummer (Items Nummern 1, 3 und 5) und eine Subskala mit allen Items mit einer geraden Nummer (Items Nummern 2, 4 und 6) bilden. Die Skalenwerte dieser beiden Subskalen (z.B. Summen- oder Mittelwerte) korrelieren Sie dann miteinander. Weitere Details zum Vorgehen finden Sie z.B. bei Bühner (2011, S. 236).

  1. b) Interne Konsistenz

Bei dieser – am häufigsten angewendeten – Berechnung der Reliabilität werden alle einzelnen Items miteinander korreliert und der Wert dieser Korrelation als Index für die Reliabilität interpretiert. Der am häufigsten genannte Index „Cronbachs Alpha“ gibt dabei den Wert der Reliabilität an: Je höher, desto besser.

Berechnung:

Der Kern der Formel für Cronbachs Alpha besteht aus den durchschnittlichen Korrelationen aller Items der Skala.

Generell gilt: Je mehr Items zu einer Skala gehören, desto höher Cronbachs Alpha.

Die Reliabilität sollte einen Wert von über .8 aufweisen. Ab einem Wert von .9 aufwärts spricht man von einer hohen Reliabilität (Bortz & Döring, 2006, S. 199). Alle Reliabilitäts-Werte unterhalb .7 benötigen daher einer Überarbeitung oder zumindest eines Überdenkens der Skala.

Im Beispiel könnte Cronbachs Alpha der Skala Leseselbstkonzept mit den Items in der Tabelle (siehe oben) eventuell nur einen Wert von .52 betragen. In so einem Fall können Sie versuchen, über das Weglassen einzelner Items, die wenig zum Wert beitragen, den Wert der Skala zu erhöhen (siehe Bühner, 2011).

 

  1. Trennschärfe

Die Items einer Skala sollen – bei hoher Reliabilität – Personen mit niedriger Merkmalsausprägung (z.B. Schüler/innen mit einem schwach ausgeprägten Leseselbstkonzept) von solchen unterscheiden können, die eine hohe Merkmalsausprägung aufweisen (z.B. Schüler/innen mit einem stark ausgeprägten Leseselbstkonzept). Damit dieses Kriterium erfüllt ist, müssen die Items einer Skala trennscharf sein.

Berechnung:

Die Trennschärfe eines Items berechnet sich aus der Korrelation dieses Items mit dem Wert der Skala, zu der das Item gehören soll. Je höher der Wert, desto besser repräsentiert dieses Item die Gesamt-Skala, zu der es gehört.

Die Trennschärfe sollte einen Wert von über .5 aufweisen (Bortz & Döring, 2006, S. 220). Alle Items mit Trennschärfen-Werten unterhalb .3 benötigen daher einer Überarbeitung der Skala, z.B. durch Streichen der betroffenen Items.

Im Beispiel könnte die Trennschärfe des Items Nr. 4 „Lesen fällt mir sehr leicht“ der Skala Leseselbstkonzept einen Wert von .61 betragen. Dies würde inhaltlich bedeuten, dass Schüler/innen, denen (nach Selbstaussage) das Lesen leicht fällt, auch diejenigen sind, die generell ein positives Leseselbstkonzept aufweisen (zumindest mit der Skala „Leseselbstkonzept“). Ein niedriger (positiver) Wert von .13 oder sogar negative Werte wie -.23 würden bedeuten, dass Schüler/innen, denen das Lesen leicht fällt, wahrscheinlich kein positives Leseselbstkonzept haben, da die anderen Items in dieser Skala in eine andere Richtung deuten können.

 

  1. Dimensionalität

Auch wenn die Items (z.B. Item Nr. 4 „Lesen fällt mir sehr leicht“) einer Skala (z.B. Leseselbstkonzept) mit genau dieser Skala hoch korrelieren (= eine hohe Trennschärfe aufweisen), kann es doch sein, dass sie auch mit den ANDEREN SKALEN ebenfalls hoch korrelieren (z.B. mit der Skala Lesemotivation). Alternativ könnte es auch sein, dass die Items Ihrer Skala (Leseselbstkonzept) gar nicht inhaltlich alle das Gleiche erfassen, sondern unterschiedliche Sachen. In der Regel sind diese beiden Fälle nicht erwünscht: Die Items eine Skala sollen „exklusiv“ zu dieser Skala gehören und nicht zu mehreren und pro Skala soll es nur eine inhaltliche Dimension geben. Vor allem dann, wenn eine dieser beiden Befürchtungen besteht und wenn Sie Items neu formuliert haben und bisher noch nicht empirisch getestet haben, sollten Sie deshalb eine Berechnung der Dimensionalität der Skalen vornehmen.

Hierfür wird in der Regel das statistische Verfahren der Faktorenanalyse (explorative oder konfirmatorische) durchgeführt.

Berechnung:

Die Faktorenanalyse bestimmt mittels verschiedener Verfahren die den Daten zugrundeliegenden Strukturen, die die Daten mit weniger als den ursprünglichen Items erklären können. Wenn mehrere Items das Gleiche erfassen, sollten sie auch hoch miteinander korrelieren. Die Faktorenanalyse bestimmt einen Faktor, der die gemeinsamen Anteile dieser miteinander korrelierenden Items repräsentiert (sozusagen den „Overlap“, das Gemeinsame dieser Items). Damit macht die Faktorenanalyse gleichzeitig die Struktur Ihrer Daten einfacher (weniger komplex). Ferner erhalten Sie im günstigen Fall dadurch die Bestätigung, dass den Items einer Skala (z.B. Leseselbstkonzept) wirklich nur ein gemeinsamer (in der Faktorenanalyse ermittelter) inhaltlicher Faktor zugrunde liegt. Das heißt, dass alle Items Ihrer Skala tatsächlich empirisch zusammenhängen und nicht zum Beispiel durch noch einen anderen Faktor erklärt werden können. Wenn es nur einen Faktor der Items einer Skala gibt, würden die Items Ihrer Skala „das Gleiche“ erfassen (WAS sie erfassen, das ist allerdings eine Frage der Validität!).

Details zur Faktorenanalyse inklusive aller Berechnungsschritte und Interpretationen finden Sie bei Bühner (2011, S. 295ff.).

Im Beispiel könnten Sie mittels der Faktorenanalyse aber auch herausfinden, dass – entgegen Ihrer Annahme – die ursprüngliche Skala Leseselbstkonzept tatsächlich aus zwei verschiedenen inhaltlichen Skalen besteht: der Skala „Leseselbstkonzept“ (z.B. mit dem Item Nr. 4 „Lesen fällt mir sehr leicht.“) und der Skala „Spaß am Lesen“ (z.B. mit dem Item Nr. 7 „Mir macht Lesen Freude.“). Diese beiden Dimensionen würden als „Faktoren“ oder „Komponenten“ vom Statistikprogramm ausgegeben werden. Sie würden daraufhin Ihre Skala „Leseselbstkonzept“ überarbeiten, hätten gleichzeitig aber auch eine neue Skala empirisch gefunden, mit der Sie weiterrechnen können. Mit Ihrer (neu gefundenen oder bestätigten) Skalenstruktur können Sie nun den Mittelwert (manchmal auch: die Summe) aller Items der Skala oder den Faktor aus der Faktorenanalyse als Skalenwert verwenden. Für diesen Skalenwert können Sie dann Mittelwerte und Standardabweichungen über die Antwortenden berechnen sowie andere deskriptive und inferenzstatistische Auswertungen vornehmen.

 

  1. Ein Hinweis zum Schluss

Trotz aller mathematischen Berechnungen, die Sie mit Items und Skalen durchführen können und teilweise sollten, verlieren Sie nie die Semantik, den Inhalt der Items aus dem Blick. So kann man bei den oben aufgeführten Beispielen relativ schnell schon am Inhalt sehen, dass einige Items der Skala Leseselbstkonzept ganz andere Dimensionen erfassen als eben das Leseselbstkonzept und damit niedrige Trennschärfen, Reliabilitäten etc. berechnet werden (z.B. Items 1, 2, 7). Bei anderen Items sieht man schon an der Formulierung, dass sie sehr ähnliche Dinge erfassen (empirisch: hoch miteinander korrelieren werden und damit eins davon nicht nötig ist (z.B. Items 3 und 4). Diese inhaltlichen Erwägungen sind immer ein wichtiger Bestandteil der Item- und Skalenanalysen.

 

Software-Empfehlungen:

Für die Berechnung der in diesem Kapitel vorgestellten statistischen Verfahren empfehlen wir die Nutzung eines Statistik-Programms wie R oder SPSS.

https://www.youtube.com/watch?v=cX532N_XLIs&list=PLqzoL9-eJTNBDdKgJgJzaQcY6OXmsXAHU&index=1

Literatur

Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4. Aufl.). Berlin: Springer.

Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3. Aufl.). München: Pearson.

Pospeschill, M. (2013). Empirische Methoden in der Psychologie. München: UTB Reinhardt.

Deskriptive Statistik

Carla Bohndick

Die deskriptive Statistik hilft Ihnen dabei, Ihre gesammelten Daten übersichtlich und anschaulich zusammenzufassen. Stellen Sie sich beispielsweise vor, Sie haben in Ihrer Befragung die demografischen Angaben Ihrer Versuchspersonen erhoben, vielleicht durch einen Fragebogen. Die deskriptive Statistik bietet Ihnen Kennwerte, die Ihnen dabei helfen, die Ergebnisse verdichtet darzustellen. Stellen wir uns also weiter vor, Sie haben das Alter Ihrer Versuchspersonen erhoben. Lagemaße (auch: Maße der zentralen Tendenz) geben nun an, welches Alter die Stichprobe am besten charakterisiert. Streuungsmaße (auch: Maße der Variabilität) zeigen die Unterschiedlichkeit der Stichprobe an.

Lagemaße

Die drei gebräuchlichsten Lagemaße sind das arithmetische Mittel, der Median und der Modus:

  • Modus: definiert als derjenige Messwert, der am häufigsten in der Stichprobe vorkommt.
  • Median: definiert als der Wert, der die Stichprobe in zwei Hälften teilt, wobei 50 % der Stichprobe größere (bzw. gleiche) Werte und 50% kleinere (bzw. gleiche)Werte aufweisen.
  • Arithmetisches Mittel („Durchschnitt“): definiert als Summe der Werte in der Stichprobe, geteilt durch die Anzahl dieser Werte.

Streuungsmaße

  • Range (Spannweite): Bereich vom kleinsten bis zum größten Wert, der in der Stichprobe auftritt
  • Varianz: Mittelwert der quadrierten Abweichungen aller Einzelwerte vom Mittelwert der Verteilung (große Werte sprechen für eine hohe Unterschiedlichkeit der Messwerte in der Stichprobe, kleine für ähnliche Messwerte in der Stichprobe): Formel 1
  • Standardabweichung: Wurzel der Varianz (die Interpretation der Standardabweichung ist einfacher als die der Varianz, da die Werte in der gleichen Einheit wie die der Messwerte verstanden werden können): Formel 2

Die Wahl des Lagemaßes und des Streuungsmaßes hängt vom Skalenniveau des gemessenen Merkmals, also der Variable ab:

Skalenniveaus Erklärung Beispiel Lagemaß Streuungsmaß
Nominal Keine sinnvolle Reihenfolge Geschlecht (männlich, weiblich) Modus
Ordinal Reihenfolge möglich
Kein gleicher Abstand
Schulform (Hauptschule, Realschule, Gymnasium) Modus, Median Range
Metrisch (Intervall- & Verhältnisskala) Reihenfolge möglich
Gleicher Abstand
Alter (9 Jahre, 10 Jahre, …) Modus, Median, Mittelwert Range, Varianz, Standardabweichung

Beispiel

Hier sehen Sie einen Ausschnitt aus einer Befragung zum Thema Motivation:

Nr Geschlecht Alter Schulform Mot1 Mot2 Mot3 Mot4
1 W 10 Gy 4 4 5 5
2 M 9 Real 3 4 3 4
3 M 9 Haupt 2 1 2 2
4 M 11 Real 3 2 3 3
5 W 10 Gy 4 3 3 4
6 W 10 Real 5 4 5 5
7 W 10 Gy 1 2 2 1

Zunächst müssen Sie die Skalenniveaus bestimmen:

  • Nominal: Geschlecht
  • Ordinal: Schulform
  • Metrisch: Alter, Klasse, Mot1-Mot4

Anschließend können Sie die Lagemaße errechnen (hier der jeweils höchstwertigste):

  • Geschlecht: W: 4 x vertreten; M: 3 x vorhanden; Modus: weiblich, d.h. die Mehrheit der befragten Personen ist weiblich. Weiblich ist also der Modalwert (= Modus).
  • Alter:
    Formel 3 ;
    arithmetisches Mittel, d.h. im Schnitt sind die befragten Personen 9,86 Jahre alt
  • Schulform: Zunächst wird jeder Schulform ein Wert zugeordnet, Hauptschule wird mit 1 und Gymnasium mit 3 belegt. Anschließend werden die Werte der Reihenfolge nach sortiert: 1,2,2,2,3,3,3. Der Wert in der Mitte ist der Median = 2, d.h. mindestens die Hälfte der Schüler/-innen ist mindestens auf der Realschule

Schließlich berechnen Sie (wenn möglich) die Streuungsmaße:

  • Geschlecht: –
  • Alter:
    Formel 5,
    d.h. die durchschnittliche Abweichung des Alters vom Mittelwert 9.86 beträgt 0.69 Jahre.
    Range Alter,
    d.h. die jüngste Person ist 2 Jahre jünger als die älteste
  • Schulform:
    Formel 7,
    d.h. die Person in der höchsten Schulform ist zwei Schulformen über der Person in der niedrigsten Schulform

 

Software-Empfehlungen:

Sie können deskriptive Statistiken zwar per Hand berechnen, sobald Sie aber eine größere Stichprobe haben, wird dies relativ aufwendig. Daher empfiehlt es sich zumindest Tabellenkalkulationsprogramme wie bspw. Microsoft Excel oder Open-Office zu nutzen. Hier können Sie die Formeln „programmieren“, häufig stehen Ihnen aber auch bereits passende Funktionen zur Verfügung.

Sollten Sie besonderen Spaß an Statistik haben oder gerne weitere Berechnungen durchführen wollen, gibt es dafür spezielle Programme. Weit verbreitet sind dabei das kostenpflichtige Programm SPSS oder auch die kostenlose Open Source Statistik-Software R.

 

Literatur:

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps (2., überarb. Aufl). Bern: Huber.

Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Berlin: Springer.

Grounded Theory

Julia Steinhausen & Tamara Ihln

 

„Die Grounded Theory ist eine qualitative Forschungsmethode bzw. Methodologie, die eine systematische Reihe von Verfahren benutzt, um eine induktiv abgeleitete, gegenstandsverankerte Theorie über ein Phänomen zu entwickeln“ (Strauss/Corbin 1996, S. 8).

 

Wie das Zitat eingangs zeigt, kann mit Grounded Theory Unterschiedliches gemeint sein, denn man unterscheidet hierbei zwischen der Methodologie und der Methode. Die Methodologie, im Sinne eines Forschungsstils, stellt spezielle Anforderungen an den Forschungsprozess, die im Folgenden erörtert werden. Will man die Grounded Theory als Methode der Auswertung verwenden, so bieten sich bestimmte Verfahrensweisen an, auf die ebenfalls eingegangen wird. Nach der Darstellung des Kodierprozesses, werden Ihnen einige Fragen bereitgestellt, die Ihnen dabei helfen können, den Forschungsprozess zur Theorieentwicklung zu überprüfen.

Da es sich bei der Methode der Grounded Theory um eine komplexe Methodologie und eine aufwendige Methode handelt sowie der Kodierprozess nach Strauss/Corbin einige Zeit in Anspruch nimmt, ist sie für Abschlussarbeiten, die auf wenige Monate begrenzt sind, weniger geeignet. Dennoch können der Kodierprozess nach Strauss & Corbin sowie die dahinterliegende Haltung wertvolle Anregungen bieten und stellen damit eine sinnvolle Alternative zu anderen Auswertungsmethoden dar.

Die Grounded Theory wurde in den 60er Jahren von den Soziologen Barney Glaser und Anselm Strauss entwickelt (Originalwerk: 1967, deutsche Fassung: 1998). Im Laufe der Zeit haben sich einige Weiterentwicklungen und Modifikationen dieser Methode ergeben (vgl. Mey/Mruck 2007). Die Grounded Theory als Methodologie (GTM) ist vor allem für explorative Forschungsfragen geeignet und für solche, die eine Prozess- und Handlungsorientierung beinhalten (vgl. Strauss/Corbin 1996, S.23). Ziel der GTM ist die Entwicklung einer gegenstandsverankerten[1] Theorie, womit sie zu den theoriegenerierenden Methoden zählt, bspw. im Gegensatz zur Qualitativen Inhaltsanalyse.

Die GTM gibt eine bestimmte Systematik vor, die jedoch in Bezug auf die Forschungsfrage angepasst werden kann und somit dem Forscher/der Forscherin Freiheiten und Kreativität ermöglicht (vgl. Mey/Mruck 2007). Die Anwendung der GTM gewährt Ihnen Einblicke in innere Zusammenhänge Ihres Untersuchungsbereichs sowie Wege zur Gewinnung von Hypothesen während des Forschungsprozesses, die wiederum am Material geprüft werden. Somit bleibt der Kontakt zum empirischen Material stets erhalten.

Den Ausgangspunkt stellt ein vorläufig umrissenes Forschungsziel einer undogmatisch-offenen Fragestellung dar, welche unterschiedlich stark skizziert sein kann (vgl. Strauss/Corbin 1996, S. 21ff.) und somit den Rahmen für erste Feldkontakte –unter Anwendung ausgewählter Erhebungstechniken – abdeckt.

Mit der Grounded Theory kann sowohl qualitatives als auch quantitatives Datenmaterial ausgewertet werden. Die wesentlichsten Erhebungstechniken qualitativer Daten bilden nicht-standardisierte oder teilstandardisierte Befragungen, Beobachtungen und non-reaktive Verfahren. Ebenso können Sie bereits vorhandene Dokumente verwenden, wie beispielsweise Tagebücher, Briefe, Dossiers, Texte (vgl. Dokumentenanalyse). Dabei ist es beliebig, an welchen Phänomenen des Forschungsbereichs Ihr Analyseprozess ansetzt. Jedoch sollten Sie als Forscher/-in Ihr vorhandenes theoretisches Vorwissen über Ihr Forschungsgebiet transparent machen und Theorie eher in Form von sensibilisierenden Konzepten an den Untersuchungsgegenstand anlegen, so dass Sie möglichst offen für viele neue Aspekte des Problemfelds sind und diese kombinatorisch durchspielen können.

Das Verfahren der Grounded Theory Methodologie verläuft zirkulär und besteht in einer ggf. mehrfach zu durchlaufenden analytischen Triade:

  • Theoretisches Sampling: die Erhebung neuer Daten angestoßen durch jeweilige Resultate des Theorieentwicklungsprozesses
  • die Analyse von bereits vorliegendem Datenmaterial und der Prozess des theoretischen Kodierens,
  • die systematische Entwicklung von Theoriebausteinen wie Konzepten, Kategorien und daraus konstruierten Theorien sowie der Reflexionsprozess des Verfahrens.

Zentrale und parallel ablaufende Schritte der GTM nach Strauss und Corbin (1996) sind: das Stellen von generativen Fragen an das Material (Wer? Wann? Wo? Was? Wie? Wieviel? Warum?), Herstellen von Zusammenhängen zwischen den sich entwickelnden Kategorien im Hinblick auf eine konzeptuell dichte Theorie, kontrastive Vergleiche von Phänomenen, Beachten der Relevanz des Kodierens, Anstreben einer Integration (Was ist der Kern der Theorie? Identifizierung der Schlüsselkategorie(n)), Erstellen von Theorie-Memos sowie das Nutzen des Kodierparadigmas.

Das systematische Anfertigen von Memos im Verlauf Ihres Forschungsprozesses stellt für Sie eine wertvolle Hilfe zur Theoriebildung dar. Das Schreiben der Memos ist unerlässlich, denn es zwingt Sie dazu, Ihre eigenen Ideen, Assoziationen und Hypothesen in Bezug zur Theoriebildung und den Planungsschritten der Auswertung festzuhalten und diese zu ordnen.

Sie haben Ihre Daten erhoben (vgl. Durchführung) und transkribiert (vgl. Transkription), so dass Sie nun mit der Auswertung in Form der Kodierung beginnen. Strauss und Corbin (1996) schlagen für den Kodierprozess folgende Schritte vor:

Offenes Kodieren, d.h. die Daten werden „aufgebrochen“ (durch generative W-Fragen, kontrastive Vergleiche, etc.):

  • Texte werden in Segmente (Sinnabschnitte/Analyseeinheiten) unterteilt
  • Entdeckte Phänomene werden mit theoretischen Kodes und in-vivo Kodes bezeichnet
  • Memowriting (z.B. Theoriememos: Was davon kann Element der sich entwickelnden Theorie sein?)
  • Dimensionalisieren (z.B. wie ist das Phänomen ausgeprägt? Hoch oder niedrig? Stark oder schwach?)
  • Bündelung der Kodes zu ersten übergeordneten Kategorien

Axiales Kodieren, d.h. Sie stellen Relationen zwischen den Kategorien her:

  • Verfeinerung und Differenzierung bereits vorhandener Kategorien
  • Suche nach/Systematisierung von möglichen empirischen Zusammenhängen zwischen den Kategorien, wobei ein Kodierparadigma[2] als Hilfsmittel dient (Kodierparadigma in Anlehnung an Strauss in Strübing 2008, S. 28)
  • Ergebnisse: systematisch an Empirie rekonstruierte und probeweise in einem relationalen Modell verknüpfte Kategorien, überarbeitete Kodeliste und erweiterte Memos

Selektives Kodieren, d.h. Sie ermitteln eine Kernkategorie:

  • Kernkategorie als zentrales Phänomen, um das herum alle anderen Kategorien gruppiert werden können
  • Kernkategorie ist die Antwort auf Ihre Forschungsfrage

Nach Entwicklung der Grounded Theory schlagen Strauss und Corbin (2010) einige Kriterien vor, um den Forschungsprozess zu reflektieren und zu prüfen, ob der Theoriebildungsprozess gelungen und die Theorie gegenstandsverankert ist. Sie dienen sozusagen als Gütekriterien (vgl. Strauss/Corbin 2010, S. 217f.):

  • Wie wurde das Sample ausgewählt? Wie wurde diese Auswahl begründet?
  • Welche Hauptkategorien wurden entwickelt?
  • Welche Ereignisse, Vorfälle, Handlungen usw. verwiesen (als Indikatoren) bspw. auf diese Hauptkategorien?
  • Auf der Basis welcher Kategorien fand theoretisches Sampling statt? Wie leiteten theoretische Formulierungen die Datenauswahl an? In welchem Maße erwiesen sich die Kategorien nach dem theoretischen Sampling als nutzbringend für die Studie?
  • Was waren einige der Hypothesen hinsichtlich konzeptueller Beziehungen (zwischen Kategorien) und mit welcher Begründung wurden sie formuliert und überprüft?
  • Gibt es Beispiele, dass Hypothesen gegenüber dem tatsächlich Wahrgenommenen nicht haltbar waren? Wie wurde diesen Diskrepanzen Rechnung getragen?
  • Wie und warum wurde die Kernkategorie ausgewählt? War ihre Auswahl plötzlich oder schrittweise, schwierig oder einfach? Auf welchem Boden wurden diese abschließenden analytischen Entscheidungen getroffen?

Fazit

Die GTM ist ein regelgeleitetes und systematisches Verfahren, das dennoch nach dem Prinzip der Offenheit vorgeht. Durch die Auseinandersetzung mit dem Material in Form von Assoziationen und Vergleichen werden die Forschenden in ihrer Kreativität gefördert und es entsteht eine dem Gegenstand angemessene Theorie.  Da es sich bei der Grounded Theory um eine komplexe Methodologie und eine aufwendige Methode handelt und der Kodierprozess nach Strauss/Corbin einige Zeit erfordert, ist sie für Abschlussarbeiten, die auf wenige Monate begrenzt sind, weniger geeignet. Dennoch können der Kodierprozess nach Strauss und Corbin und die dahinterliegende Haltung wertvolle Anregungen bieten und stellen damit eine sinnvolle Alternative zu anderen Auswertungsmethoden dar. Ratsam ist es, sich während des Forschungsprozesses in einer Forschungsgruppe zusammenzuschließen, um sich über den Forschungs- und Auswertungsprozess austauschen und ggf. auch gemeinsam ausschnittweise kodieren zu können.

Weiterführende Literatur: Grounded Theory-Methodologie

  • Glaser, Barney/Strauss, Anselm L.: The discovery of gounded theory. Chicago: Aldine, 1967, (Originalwerk, deutsche Übersetzung: Grounded Theory. Strategien qualitativer Forschung. Bern: Verlag Hans Huber, 1998.)
  • Mey, Günter/Mruck, Katja (Hrsg.): Grounded Theory Reader. Historische Sozialforschung Supplement 19. Köln: Zentrum für historische Sozialforschung, 2007.
  • Strauss, Anselm L./ Juliet M. Corbin: Grounded Theory: Grundlagen qualitativer Sozialforschung. Beltz, Psychologie-Verlag-Union, 1996/2010.
  • Strübing, Jörg: Grounded Theory. Zur sozialtheoretischen und epistemologischen Fundierung des Verfahrens der empirisch begründeten Theoriebildung. Wiesbaden: VS Verlag für Sozialwissenschaften, 2004.

[1] Die deutsche Übersetzung ist oft missverständlich. Mit einer „grounded“ Theory meinen Strauss und Glaser eine Theorie, die durch das Wechselspiel von Empirie und Theorieentwicklung entsteht und damit in den Daten gegründet bzw. verankert ist. Im weiteren Verlauf wird daher die englische Originalform verwendet.

[2] Das Kodierparadigma nach Strauss ist ein heuristisches Modell, das dabei hilft Kategorien im Hinblick auf ihre Beziehung untereinander zu strukturieren. So kann im Prozess überprüft werden, ob die entwickelten Kategorien und Kodes ursächliche Bedingungen, Kontextaspekte, Handlungsstrategien, intervenierende Bedingungen oder Konsequenzen in Bezug auf das untersuchte Phänomen darstellen.

Transkription

Frauke Raddy

Unterrichtssequenzen oder Aktivitäten im Schulleben, welche sie anhand von Ton-, Bild oder Filmdokumenten erfassen, können Sie auswerten. Das setzt allerdings voraus, dass diese Dokumente in eine schriftliche Form überführt werden, um sie der Analyse zugänglich zu machen. Dieser Vorgang wird in der Sozialwissenschaft als „Transkription“ (lat. trans-scribere = umschreiben) bezeichnet (vgl. Przyborski/Sahr 2009, S. 161).  Durch die schriftliche Form haben Sie die Möglichkeit, beispielsweise das Interview oder die Beobachtung intensiv zu untersuchen. Auf Basis der Transkripte kann die Auswertung (z.B. Dokumentarische Methode oder die qualitative Inhaltsanalyse) erfolgen.

 Die Interviews, Beobachtungen, Bild- oder Filmdokumente werden aufgezeichnet und anschließend nach den Regeln eines bestimmten Transkriptionssystems vollständig von der Verfasser/-in transkribiert. Die Transkriptionsregeln werden im Anhang einer Abschlussarbeit beigefügt. Aus Gründen des Datenschutzes  müssen Sie die Namen von Personen und Orten anonymisieren. Für die Nachvollziehbarkeit der Auswertungsschritte werden die Zeilen nummeriert. Die Erstellung von Transkripten nimmt viel Zeit in Anspruch. In der Regel werden für 10 Interviews von jeweils ca. 60 Minuten inklusive Korrektur 50-100 Arbeitsstunden benötigt (vgl. Dresing/Pehl 2012, S 24).

Es gibt unterschiedliche Transkriptionssysteme, welche für die Verschriftlichung gesprochener Sprache geeignet sind. Diese haben unter anderem die Aufgabe lautliche Phänomene aufzuzeichnen, welche in der Orthographie nicht beschrieben werden, wie beispielsweise das gleichzeitige Sprechen, Betonungen oder Pausen (vgl. Przyborski/Sahr 2009, S. 164).

An dieser Stelle ist es nicht möglich, eine umfassende Darstellung aller Transkriptionssysteme zu erörtern. Exemplarisch stelle ich zwei Beispiele vor und verweise anschließend auf entsprechende Quellen hinsichtlich weiterer Transkriptionssysteme.

Transkriptionssytem (1): TiQ (Talk in Qualitative Social Research) ist ein Transkriptionssystem zur Erfassung von Gesprächen für eine rekonstruktive Auswertung und kann mit jedem Textverarbeitungsprogramm durchgeführt werden (vgl. Przyborski/Sahr 2009, S. 164f.).

Im folgenden Abschnitt stelle ich Ihnen die Transkriptionsregeln von TiQ vor. Anschließend wird Ihnen anhand eines Beispieltranskripts die Umsetzung dieses Transkriptionssystems näher dargelegt.

Transkriptionsregeln nach TiQ

Interviewer/-in: Den Interviewer/-innen wird die Maskierung Y1 und Y2 zugewiesen.

Befragte: Jede Person, die an dem Interview beteiligt ist, wird in dem Transkript mit einem Buchstaben und mit einem f für feminin und einem m für maskulin gekennzeichnet.

(I_): Mit dem Häkchen (I_) wird die Überlappung von zwei Sprecher/-innen abgebildet.

(3): Die Zahl in Klammern gibt die Anzahl der Sekunden von einer Sprechpause an.

Nein: Betonung

@nein@: Lachend gesprochene Äußerungen

(doch): Unsicherheit bei der Transkription und schwer verständliche Äußerungen

Oh=nee: Zwei oder mehr Worte, die wie eines gesprochen werden (Wortverschleifung)

brau-: Abbruch eines Wortes

. : Stark sinkende Intonation

; : Schwach sinkende Intonation

Ja::: Dehnung von Lauten. Die Häufigkeit der Doppelpunkte entspricht der Länge der Dehnung

@(.)@: Kurzes Auflachen

((hustet)): Kommentar bzw. Anmerkung zu parasprachlichen, nichtverbalen oder gesprächsexternen Ereignissen. Soweit das möglich ist, entspricht die Länge der Klammer etwa der Dauer des lautlichen Phänomens (Przyborski/Sahr 2009, S. 166f.).

Des Weiteren werden die Zeilen nummeriert, damit die Transkriptstellen für die Datenauswertung zitiert werden können und somit den Leser/-innen die Einordnung in das Interview erleichtert wird.

Beispieltranskript aus einer Staatsexamensarbeit zum Thema „Chancen und Grenzen des Erwerbs von interkulturellen Kompetenzen“, welches nach dem oben genannten Regelsystem transkribiert wurde.

Passage: Eingangspassage

Datum: 27.01.2012

Timecode: 00:00:20-4 – 00:01:36-2

Transkription: Karin Muster

Korrektur: Ralf Meier

Y1: Ich habe dir ja schon erzählt dass sich meine Examensarbeit mit dem Thema  interkulturelle Kompetenz befasst, (2) jetzt würde ich dich einfach bitten, dass du erzählst, was du persönlich unter dem Begriff interkulturelle Kompetenz verstehst. #00:00:20-4#

Cm: Ja, also (3) ich habe da so @kein Vorwissen@, außer das, was ich gerade aus deinen Beschreibungen zur Examensarbeit mitgenommen habe. Interkulturelle Kompetenz darunter verstehe ich , dass man im Lehrerberuf eben kompetent ist, die Fähigkeiten aufweist, sich eben Kindern aus (verschiedenen) Migrationen, wie sagt man, aus verschiedenen Migrationshintergründen auseinanderzusetzen und ja, versucht, sag ich mal, deren Verhaltensweisen nachzuvollziehen und irgendwie vor diesem Hintergrund einordnen zu können. So dass man gegebenenfalls auftretende Probleme auf Grund von irgendwelchen religiösen Sachen meinetwegen begegnen kann, also dass man damit umge- kann, umgehen lernt. #00:01:08-9#

Y1: Also (2) was würdest du sagen, welche Bedeutung hat für dich diese interkulturelle Kompetenz in deiner zukünftigen Lehrerrolle? #00:01:15-5#

Cm: @(.)@ Puh::, (2) da hab ich mir wie gesagt noch @nie so wirklich Gedanken drüber gemacht@, aber ich denke, (4) man kann da auf jeden Fall nicht zu wenig Know-how haben, wenn man tatsächlich mal, ich sag mal, etwas extremeren Fall dann hat und nicht weiß, wie man damit umgehen soll. Dann (seufzen) kann man ja immer noch andere Leute fragen, die da mehr Ahnung von haben, aber es ist sicherlich nicht unwichtig, dass man da zu=nen gewissen Fall geschult wird. #00:01:36-2#

Diese und weitere Prinzipien und Konventionen von TiQ sowie Hinweise für MoViQ (Ein Transkriptionssystem zur Erfassung von Filmen) finden Sie in dem Arbeitsbuch Qualitative Sozialforschung von Aglaja Przyborski und Monika Wohlrab-Sahr (2009).

Transkriptionssystem (2): Auch Dresing/Pehl (2013) haben sich in dem „Praxisbuch Interview, Transkription & Analyse, Anleitungen und Regelsysteme für qualitativ Forschende“ mit der Transkription von qualitativen Interviews beschäftigt. In ihrem Handbuch unterscheiden sie zwischen dem „Einfachen Transkriptionssystem“ und dem „Feintranskript“.

Im folgenden Abschnitt stelle ich Ihnen die Transkriptionsregeln für das „Einfache Transkriptionssystem“  nach Dresing/Pehl (2013) vor:

1. Die Transkription erfolgt wörtlich, das bedeutet, ein Dialekt wird ins Hoch-deutsche übersetzt.

2. Syntaktische Fehler im Satzbau werden übernommen. Wortverschleifungen hingegen werden an das Schriftdeutsch angepasst.

3. Erfolgt ein Satzabbruch durch die Zielpersonen oder den InterviewerI-innen, wird dieser mit einem Schrägstrich / dargestellt.

4. Zu Gunsten der Lesbarkeit wird die Interpunktion geglättet. Das bedeutet, beim kurzen Senken der Stimme wird ein Punkt gesetzt. Ist die Betonung nicht eindeutig, wird ebenfalls eher ein Punkt gesetzt als ein Komma.  Wichtig ist, dass die Sinneinheiten beibehalten werden.

5. Sprechpausen werden durch Punkte in Klammern gekennzeichnet. Die Punkte geben die Anzahl der Sekunden an. Bei mehr als drei Sekunden Sprechpause markiert eine Zahl, z.B. (4), die Dauer der Pause.

6. Bekräftigende Äußerungen der Interviewer/-innen, wie z.B. „mhm,“ sowie Äußerungen der Zielpersonen, wie z.B. „äh“ werden nicht transkribiert. Eine Ausnahme bilden Antworten, die als bejahend erfolgen. Diese werden folgendermaßen markiert: „mhm (bejahend)“.

7. Die Betonung von Wörtern wird durch Großschreibung gekennzeichnet.

8. Die gesprochenen Beiträge erhalten jeweils einen eigenen Absatz, welcher am Ende mit einer Zeitmarke gekennzeichnet wird.

9. Geäußerte Emotionen nach einem gesprochenen Satz werden in Klammern protokolliert, z.B. (lachen/seufzen).

10. Die Äußerung eines unverständlichen Wortes wird durch (unv.) notiert. Erfolgen längere unverständliche Abschnitte, sollte in der Klammer die Ursache hinzugefügt werden, z.B. (unv., Hund bellt laut). Die Annahme eines Wortlautes kann durch ein Fragezeichen in Klammern versehen werden.

11. Befragte und Interviewer/-in werden durch die Buchstaben „I“ (Interviewer/-in) und „B“ (Befragte) gekennzeichnet (vgl. Dresing/Pehl 2013, S. 21ff.).

Beispieltranskript nach dem „Einfachen Transkriptionssystem“ (Dresing/ Pehl 2013

 I: Ich habe dir ja schon erzählt dass sich meine Examensarbeit mit dem Thema  interkulturelle Kompetenz befasst, (..) jetzt würde ich dich einfach bitten, dass du erzählst, was du PERSÖNLICH unter dem Begriff interkulturelle Kompetenz verstehst. #00:00:20-4#

B: Ja, also (…) ich habe da so kein Vorwissen (lachen), außer das, was ich gerade aus deinen Beschreibungen zur Examensarbeit mitgenommen habe. INTERKULTURELLE KOMPETENZ darunter verstehe ich,  dass man im Lehrerberuf eben kompetent ist, die Fähigkeiten aufweist, sich eben Kindern aus (verschiedenen?) Migrationen, wie sagt man, aus verschiedenen Migrationshintergründen auseinanderzusetzen und ja, versucht, sag ich mal, deren Verhaltensweisen nachzuvollziehen und irgendwie vor diesem Hintergrund einordnen zu können. So dass man gegebenenfalls auftretende Probleme auf Grund von irgendwelchen religiösen Sachen meinetwegen begegnen kann, also dass man damit umge/ kann, umgehen lernt. #00:01:08-9#

I: Also (..) was würdest du sagen, welche Bedeutung hat für dich diese interkulturelle Kompetenz in deiner zukünftigen LEHRERROLLE#00:01:15-5#

B: (lachen) Puh, (..) da hab ich mir wie gesagt noch nie so wirklich Gedanken drüber gemacht (lachen), aber ich denke, (4) man kann da auf jeden Fall nicht zu wenig Know-how haben, wenn man tatsächlich mal, ich sag mal, etwas extremeren Fall dann hat und nicht weiß, wie man damit umgehen soll. Dann (seufzen) kann man ja  immer noch andere Leute fragen, die da mehr Ahnung von haben, aber es ist sicherlich nicht unwichtig, dass man da zu einem gewissen Fall geschult wird. #00:01:36-2#

 Zwischen den einzelnen Transkriptionssystemen gibt es Unterschiede: Das „Einfache Transkriptionssystem“  beinhaltet schnell erlernbare Transkriptionsregeln und eröffnet uns einen schnelleren Zugang zum Gesprächsinhalt, da auf genaue Details zur Aussprache verzichtet wird. Dialekte werden ins Hochdeutsche übersetzt. Folglich wird das Transkript leichter lesbar und der Fokus liegt hier eher auf den Gesprächsinhalt (vgl. Dresing/Pehl 2013, S.17ff.).

Dagegen vermittelt das „Feintranskript“, welches nach einem komplexen Regelsystem erstellt wird, durch die Beibehaltung des Dialekts und der Tonhöhenverläufe eine bessere Vorstellung von den Interviewer/-innen. Ferner wird bei dem detaillierten Transkript auch die Tonhöhenverläufe, Nebenakzente, Lautstärke und Sprechgeschwindigkeit hinzugefügt (vgl. Dresing/Pehl 2013, S. 17ff.).

Demnach hängt die Entscheidung für eine Transkription von der Forschungsmethodik und der Erkenntniserwartung ab. Dabei steht die zentrale Frage  im Vordergrund: Für welche Art von Analyse erstelle ich mein Transkript? Sie sollten sich vorher überlegen, ob es z.B. für die Interpretation von Bedeutung ist, den Dialekt oder die besondere Betonung der Befragten zu transkribieren. Hier ist es wichtig klare Regeln aufzustellen, damit die wissenschaftliche Nachvollziehbarkeit gewährleistet ist (vgl. Dresing/Pehl 2013, S. 20).

Transkriptionssoftware

In der 5. Auflage des kostenfreien „Praxisbuch Interview, Transkription & Analyse“ wird des Weiteren der Umgang mit der Computersoftware f4 erläutert, welche Ihnen eine einfache Handhabung mit der Transkription ermöglicht. Die Softwareprogramme f4 und f5 erleichtern Ihnen die Transkription, da die Abspielgeschwindigkeit verlangsamt wird, ein automatischer Rücksprung durch das Pausieren eingesetzt wird und Zeitmarken gesetzt werden. Für Mac-Nutzer wurde die Version f5 entwickelt. Beide Programme werden stetig weiterentwickelt.

Zudem bietet MAXQDA 12 die Möglichkeit zur Transkription von Audio- und Videodateien.

Computersoftware für die Transkription:

Literatur

Kuckartz, U., Dresing, T., Rädiker, S., Stefer, C. (2008a). Qualitative Evaluation. Der Einstieg in die Praxis. Wiesbaden: VS-Verlag.

Kuckartz, U., Dresing, T., Rädiker, S., Stefer, C. (2008b). Qualitative Evaluation. Der Einstieg in die Praxis. 2. Auflage. Wiesbaden: VS-Verlag.

Kuckartz, U. (2010). Einführung in die computergestützte Analyse qualitativer Daten. 3. Auflage. Wiesbaden: VS Verlag.

Przyborski, A., Wohlrab-Sahr, M. (2009). Qualitative Sozialforschung. 2. Auflage. München: Oldenbourg Wissenschaftsverlag GmbH.

Internetquellen:

Dresing, T., Pehl, T. (2013). Praxisbuch Interview, Transkription &  Analyse. Anleitungen und Regelsysteme für qualitativ Forschende. 5. Auflage. Marburg, 2013. http://www.audiotranskription.de/transkription-praxisbuch [Abruf: 27.07.2014]

http://www.audiotranskription.de/Praxisbuch-Transkription.pdf [Abruf: 27.07.14]

Dokumentarische Methode

Dr. Anna Maria Kamin

Eine methodische Herangehensweise, um audiovisuell erzeugtes und transkribiertes Material auszuwerten (vgl. Auswertung quantitativ; Auswertung qualitativ), bietet Ihnen die dokumentarische Methode, welche im Folgenden in aller Kürze erläutert werden soll. Darauffolgend werden Sie auf die Grenzen und Chancen der Methode hingewiesen, um Ihnen abschließend beispielhaft das vierstufige Verfahren vorzustellen, mit welchem Sie die erhobenen – und transkribierten – Daten auswerten können.
Es handelt sich bei der Methode um ein verstehendes Verfahren. Im Vordergrund steht die Rekonstruktion und Interpretation immanenter (vorstellbarer) Sinngehalte von Erzähl-, Interaktions- und Diskursverläufen. Die Methode eignet sich, um qualitative Interviews, Gruppendiskussionen oder Videoaufzeichnungen auszuwerten, insbesondere wenn diese längere narrative Phasen beinhalten und damit über die reine Beschreibung (bspw. im Vergleich zur Qualitativen Inhaltsanalyse) hinaus vertiefend analysiert werden sollen. Leitgedanke des Begründers des Verfahrens – RALF BOHNSACK – ist, dass ein deutlicher Unterschied zwischen Verstehen und Interpretieren existiert, welcher durch die Rekonstruktion überwunden werden soll. BOHNSACK vertritt den Ansatz, dass sich Verstehen intuitiv und a-theoretisch aus der unmittelbaren Logik des Alltags heraus ergibt. Die Interpretation hingegen bezieht sich auf den zweckrationalen Zusammenhang einer Handlung, bzw. dem Motiv oder der Absicht, die sich hinter einer Handlung verbirgt (vgl. BOHNSACK 2003, S. 59 f.). Diese Differenz bezeichnet BOHNSACK als kommunikativen oder immanenten Sinngehalt und konjunktiven bzw. dokumentarischen Sinngehalt. Verstehen ist nach dieser Sichtweise die Explikation des Verstandenen bzw. die Spanne zwischen den beiden Sinnebenen. Somit muss es Ziel der Auswertung sein, implizites Wissen begrifflich zu erläutern (vgl. BOHNSACK/NENTWIG-GESEMANN/NOHL 2007, S. 12).

________________________________________________________________________________________

Verstehen = ergibt sich rein intuitiv aus dem alltäglichen Verständnis heraus

Interpretation = bezeichnet ein an bestimmten Zwecken und Motiven ausgerichtetes Denken und Handeln

Unterschied zwischen Verstehen und Interpretation = basiert auf einem kommunikativen und immanenten Sinngehalt (Verstehen) und einem konjunktiven bzw. dokumentarischen Sinngehalt (Interpretation). Diese Differenz soll durch die Rekonstruktion überwunden werden.

Verstehen ist die Erläuterung des Verstandenen. Ziel der Auswertung: implizites Wissen begrifflich darzustellen.

________________________________________________________________________________________

Dokumentarische Methode_Abb. TI

Abb. 1.: verkürzte Darstellung IHLN (2014)
BOHNSACK schlägt dazu ein vierstufiges Verfahren vor: eine formulierende Interpretation, eine reflektierende Interpretation, eine Fallbeschreibung und einen Vergleich, der eine Typenbildung mit theorieorientierten Hinweisen anstrebt.
Doch: Da die Methode sehr komplex ist, ist sie in vollem Umfang und mit allen Auswertungsschritten für kleinere Forschungsarbeiten, wie bspw. einer B.A.-Arbeit o.Ä., ungeeignet. Dennoch bietet die dokumentarische Methode mit ihrer alternativen Sichtweise auf qualitative Daten die Chance, vertiefende Erkenntnisse zu den erhobenen Daten zu erhalten. Vielfach werden für Qualifikationsarbeiten, wie bspw. auch Dissertationen o.Ä., lediglich die ersten beiden bzw. drei Auswertungsschritte durchgeführt.
Wie die nachfolgende Beschreibung der Vorgehensweise sowie das angeführte Beispiel Ihnen verdeutlichen soll, birgt die Methode die Gefahr, dass die Ergebnisse in erster Linie an die Interpretation des Forschers/der Forscherin – also Ihre eigene Interpretation – gebunden (s.u.) und damit nicht ausreichend valide (gültig) sind. Alle Protagonisten der dokumentarischen Methode empfehlen daher zwingend, die Diskussion Ihrer Ergebnisse in einer Interpretationsgruppe (z.B. in Kolloquien oder Forschungswerkstätten).

I Formulierende Interpretation

Im ersten Schritt der dokumentarischen Methode geht es darum herauszuarbeiten, welche Themen und Unterthemen in Ihrem Interview/Ihrer Gruppendiskussion angesprochen werden. Da Sie im Zuge dieser Untergliederung des Textes – Ihres Transkripts – zusammenfassende Formulierungen leisten, nennt BOHNSACK diesen Schritt ‚formulierende Interpretation‘. In diesem Schritt verbleiben Sie noch innerhalb des Orientierungsrahmens, den Ihnen der/die Interviewte vorgibt, und machen diesen noch nicht zum Gegenstand begrifflich-theoretischer Explikation, d.h. Sie beginnen an dieser Stelle noch nicht, die Aussagen begrifflich-theoretisch sowie theoriegeleitet zu erläutern.
Die formulierende Interpretation kann somit als Rekonstruktion der thematischen Gliederung Ihrer erstellten Transkripte gesehen werden.
Darüber hinaus werden zur Vorbereitung auf den nächsten Interpretationsschritt Passagen innerhalb Ihrer Transkripte gekennzeichnet, die durch thematische Relevanz in Bezug auf Ihre formulierte Fragestellung für eine komparative Analyse (d.h. Untersuchung Ihrer Fälle nach dem Kriterium der Vergleichbarkeit) geeignet sind.
Ebenso werden von Ihnen weitere Passagen aus dem Skript ausgewählt, die sich unabhängig von der Fragestellung durch eine besondere interaktive und metaphorische Dichte auszeichnen (z.B. Passagen, in denen ein häufiger Sprecherwechsel stattfindet, in denen das Thema ausführlich behandelt wird oder Sequenzen, die in sich eine Intensität aufweisen).
So wird an dieser Stelle die Frage beantwortet, was innerhalb des Interviews und/oder der Gruppendiskussion gesagt wird und der Inhalt des Transkripts wird paraphrasiert, so dass die thematische Struktur und Gliederung des Textes nachgezeichnet werden können.

Beispiel: Interview mit 13-jähriger Schülerin zu Medienhandeln in der Familie
Also ich (.) tipp die einfach bei Google ein die Sachen die ich suche und dann (.) zum Beispiel Wikipedia oder so. //mhm// Da kann man ja immer sowas reinschreiben was man will. //mhm// Es stimmt ja nicht immer //genau// und dann guck ich immer (.) wenn (.) richtig viele Seiten wenn immer das Gleiche da st=drin steht dann nehm ich das einfach raus. Z.312-315

Oberthema: Internetnutzung
Unterthema: Strategien bei der Internetrecherche für die Schule Z. 312-315
312 Eingabe des Suchbegriffs in die Suchmaschine Google
313 Verwendung der Enzyklopädie Wikipedia
313-314 In Wikipedia kann jeder reinschreiben, daher stimmt nicht alles
314-315 Wenn auf vielen Seiten das Gleiche steht, verwendet sie die Informationen

Wenn Sie nun Ober- und Unterthemen für Ihre Passagen formuliert haben, erhalten Sie gleichzeitig eine thematische Feingliederung.

II Reflektierende Interpretation

Im zweiten Interpretationsschritt erfolgt eine Rekonstruktion und Explikation (Erläuterung) des Rahmens, innerhalb dessen das Thema abgehandelt wird. Diese Identifizierung von Bedeutungszusammenhängen wird als ‚reflektierende Interpretation‘ bezeichnet. Voraussetzung für diese empirisch-methodisch kontrollierte Reflexion ist für BOHNSACK der Bezug auf empirisch fundierte und nachvollziehbare Gegenhorizonte (vgl. ebd., S. 38). Die Identifikation von Gegenhorizonten, bspw. die Abgrenzung von Personen oder Gruppen, bilden die wesentlichen Bezugspunkte der reflektierenden Interpretation. Ihre eigenen Vorstellungen oder Entwürfe, die den Gegenhorizont bilden, können entweder gedankenexperimentell sein oder auf hypothetischen Vorstellungen beruhen, sind also abhängig vom Standort des Interpreten/der Interpretin. Demzufolge ist es notwendig, dass Sie nun durch empirische Fundierung der Vergleichshorizonte die Untersuchung methodisch kontrollierbar und intersubjektiv nachvollziehbar machen.

Beispiel:
Zeilennummern
312-315 Oberthema
Internetnutzung Unterthema
Internetrecherche für die Schule
Orientierungsmuster
Schematisches Vorgehen bei der Informationssuche im Netz

Horizont
Eingabe des Suchbegriffs in Google

Informationen werden als valide erachtet, wenn sie mehrfach identisch im Netz auftauchen. Gegenhorizont
Zielgerichtete Vorgehensweise mit der Anwendung von erweiterten Suchoptionen und Werkzeugen.
Kriterien geleitete Bewertung von Internetquellen.

Analytisches Fazit
Die Passage deutet auf eine wenig ausgeprägte Reflexivität im Umgang mit Internetquellen und mangelnde medienkritische Fähigkeiten der Schülerin hin.

So könnten Sie für diesen Schritt Fragen unterstützen, wie bspw.:
– Welche Bemühungen, Wünsche und Gedanken enthält die vorliegende Passage?
– Welcher Sinngehalt kann als Grundlage dieser Aussage formuliert werden?

III Fallbeschreibung

Nachdem Sie den Diskursverlauf im Zuge der formulierenden Interpretation und der reflektierenden Interpretation in seine Komponenten zergliedert haben, wird in der so genannten Fallbeschreibung (manchmal auch als Diskursbeschreibung bezeichnet) all dies wieder zusammengesetzt und eingebunden. An dieser Stelle entwickeln Sie nun eine Art Nacherzählung des Diskursverlaufs. (BOHNSACK 2003, S. 51). Primäre Aufgabe ist es, die Ergebnisse im Zuge einer Veröffentlichung darzustellen. Dabei fügen Sie ausgewählte Textpassagen als Zitate ein.

Beispiel:
Bei der Internetrecherche geht die Interviewpartnerin wenig zielgerichtet vor. Die Aussage tipp die einfach bei Google ein lässt den Schluss zu, dass sie keine erweiterten Suchoptionen oder alternative Suchmaschinen kennt. Gleichwohl weiß sie, dass Internetquellen, wie Wikipedia, nicht immer glaubhaft sind. Zur Bewältigung hat sich Shiva eine Strategie angeeignet die nicht auf eine angemessene Quellenkritik im Sinne einer Beurteilung nach validen Kriterien beruht, stattdessen praktiziert sie eine heuristische Herangehensweise, indem sie Informationen verwendet, die mehrfach identisch im Netz auftauchen werden (wenn immer das Gleiche da st=drin steht).

IV Typenbildung

Innerhalb der zuvor beschriebenen Interpretationsschritte wurden die Analyse eines Einzelfalls und der fallinterne Vergleich fokussiert. Im nun abschließenden Auswertungsschritt der dokumentarischen Methode, gerät die fallübergreifende Abstraktion aus all Ihren Fällen in den Fokus. Ziel dessen ist es, eine Typisierung vorzunehmen, d.h. im Zuge der Typenbildung arbeiten Sie aus der Interpretation Bezüge zwischen spezifischen Orientierungen und Erlebnishintergründen heraus. Wesentliches Element der Typenbildung ist die komparative Analyse einzelner Fälle (vgl. ebd. 2003, S. 135).

Softwareempfehlungen:

Keine

Literatur:

  • Bohnsack, Ralf (2003): Rekonstruktive Sozialforschung. Einführung in qualitative Methoden. 5. Aufl. Opladen: Barbara Budrich Verlag.
  • Bohnsack, Ralf; Nentwig-Gesemann, Iris; Nohl, Arnd-Michael (Hg.) (2007): Die dokumentarische Methode und ihre Forschungspraxis. Grundlagen qualitativer Sozialforschung. 2., erweiterte und aktualisierte Auflage. Wiesbaden: VS Verlag für Sozialwissenschaften.
  • Nohl, Arnd-Michael (2008): Interview und dokumentarische Methode. Anleitungen für die Forschungspraxis. 2., überarb. Aufl. Wiesbaden: VS Verl. für Sozialwissenschaften.

Weitere Praxisbeispiele:

Dokumentarische Methode: Schulpädagogik, Universität Kassel (Online verfügbar unter: http://www.fallarchiv.uni-kassel.de/lernumgebung/dokumentarische-methode/ November 2014)

Qualitative Inhaltsanalyse

Stefanie Meier

Nachdem Sie nun Ihre Daten erhoben haben, besteht der nächste Schritt in der Auswertung eben dieser. Eine mögliche Auswertungsmethode stellt die Kodierung durch die qualitative Inhaltsanalyse dar, welche Ihnen im Folgenden in ihren Grundzügen näher vorgestellt werden soll. Das Ziel besteht darin, fixierte Kommunikation (Ihre Transkripte, Texte, Bilder, Noten, symbolisches Material etc.) zu analysieren, um infolgedessen Rückschlüsse zur Beantwortung der Forschungsfrage ziehen zu können. Angestrebt wird somit eine Reduzierung der Komplexität des Materials. Diese können Sie mithilfe eines Kategoriensystems erreichen, in welchem Sie diejenigen Aspekte festlegen, die für die Auswertung relevant erscheinen und aus dem Material herausgefiltert werden sollen. Eine präzise Beschreibung für den Begriff der Kategorie zu finden, ist alles andere als trivial: In der qualitativen Inhaltsanalyse wird eine Kategorie als ein Bezeichner (oder etwas Bezeichnendes) verstanden, dem Textstellen zugeordnet werden (vgl. Kuckartz 2007, S. 57). Teile des Textes werden also nach bestimmten Kriterien geordnet und durch Kategorien beschrieben. Es kann sich bei der Benennung dieser um ein einzelnes Wort (z. B. „Kompetenzentwicklung“) oder aber auch um eine Mehrwortkombination (z. B. Einstellungen zum Muttersprachenunterricht) handeln. Die Herangehensweise und die konkreten Schritte der Kategorienbildung sowie die Anzahl und der Aufbau des Kategoriensystems variieren je nach Forschungsgegenstand und –frage, sodass keine allgemeingültigen Richtangaben gemacht werden können.

Grundlegend bestehen zwei Möglichkeiten der Kategorienbildung: die deduktive und die induktive Vorgehensweise. Ihre Entscheidung für die eine oder die andere Vorgehensweise hängt von dem Umfang Ihres theoretischen Vorwissens und Ihres gewählten Erhebungsinstruments ab. Beiden gemein ist eine kontrollierte und regelgeleitete Vorgehensweise. Dabei schließen sich die zwei Strategien nicht gegenseitig aus, sodass auch eine Kombination beider möglich ist.

 

Deduktive Kategorienbildung:

Bei diesem von Mayring als Strukturierung bezeichnetem Verfahren werden die Kategorien vor der Analyse des Datenmaterials aufgestellt und definiert. Das Ziel ist die Extrahierung festgelegter Elemente aus dem Material. Es erfolgt ein Durchlauf durch die gesamten Daten hinsichtlich vorab beschlossener Strukturen. Aufgrund dieser Ordnungskriterien soll die Grundgestalt, das Profil des Materials, beurteilt werden (vgl. Mayring 2010, S. 65). Es bietet sich dann an, wenn Sie bereits über ein umfassendes Vorwissen verfügen, bereits Hypothesen bezüglich Ihres Forschungsgegenstandes aufgestellt haben oder aber ein (teil-)standardisiertes Erhebungsinstrument, wie beispielsweise einen Interviewleitfaden, verwendet haben. Die Kategorien können dann durch wichtige Aspekte aus der bereits bekannten Literatur zu dem jeweiligen Forschungsgegenstand und/oder anhand des verwendeten Datenerhebungsinstruments gebildet werden.

Im Folgenden sehen Sie einen Interviewleitfaden, welcher im Rahmen einer Staatsexamensarbeit zum Thema „Chancen und Grenzen des Erwerbs von interkulturellen Kompetenzen“ entstanden ist.

  1. Was verstehst Du unter dem Begriff interkulturelle Kompetenz?
  2. Welche Erfahrungen konntest Du bereits zum Thema ‚interkulturelle Kompetenz‘ an der Universität machen?
  3. Welche Möglichkeiten zum Erwerb interkultureller Kompetenz an der Universität kennst Du noch?
  4. Welche Wünsche/Anregungen/Verbesserungsvorschläge hast Du für die Uni in dem Bereich Förderung von interkultureller Kompetenz?
  5. Welche Bedeutung hat für Dich interkulturelle Kompetenz in deiner zukünftigen Lehrerrolle?
  6. Was bedeutet es für Dich, wenn eine Klasse von vielen Schüler/innen mit Migrationshintergrund besucht wird?

 

 

Im Falle dieses Leitfadens lassen sich nun deduktiv unter anderem die folgenden Oberkategorien ableiten:

  • Begriffsverständnis interkulturelle Kompetenz
  • Thematische Erfahrungen
  • Möglichkeiten zum Erwerb interkultureller Kompetenz

 

Nachdem Sie nun deduktiv einige Kategorien erstellt haben, sichten Sie Ihr Datenmaterial und ordnen alle relevanten Textstellen den passenden Kategorien zu. Diesen Vorgang nennt man Kodierung. Hierfür existiert entsprechende Software (s. u.), allerdings eignet sich für schmalere Datenmengen ebenso die Arbeit mit Papier und farbigen Stiften für die verschiedenen Kategorien. Die Kodierung eines Textabschnittes mit mehreren Kategorien ist zulässig, da in ein und derselben Textstelle verschiedene Themen angesprochen werden können.

Im nächsten Schritt halten Sie Ihr Vorgehen in einem Kodierleitfaden fest, um eine möglichst präzise Formulierung der Kategorien zu erreichen und unnötige Überschneidungen zu vermeiden.

  1. Definition der Kategorien: Es wird definiert, welche Bestandteile unter eine Kategorie fallen sollen.
  2. Ankerbeispiele: Es werden konkrete Textstellen aus dem Protokoll oder Transkript des Interviews als Musterbeispiele für die Kategorie angeführt.
  3. Kodierregeln: Dort, wo Abgrenzungsprobleme zwischen einzelnen Kategorien bestehen, werden Regeln formuliert, um eindeutige Zuordnungen sicherzustellen (vgl. Mayring 2010, S. 106).

Dieser Kodierleitfaden dient als Handreichung sowohl für Sie selbst als auch für alle anderen Forschenden, welche in die Auswertung der Daten involviert sind oder es zukünftig sein könnten. Um eine hinreichende Güte bei der Anwendung der Kategorien zu erreichen, sollten die Kodierungen der verschiedenen Forscherinnen und Forscher unabhängig voneinander weitestgehend übereinstimmen. Diese Forderung entspricht dem Gütekriterium der Intercoder-Reliabilität.

 

Beispiel für einen Kodierleitfaden aus der oben genannten Staatsexamensarbeit:

Kategorie Definition Ankerbeispiel Kodierregeln
Begriffsverständnis interkulturelle Kompetenz Alle Textstellen, die auf eine Deutung des Begriffs interkulturelle Kompetenz hinweisen B1: „Dass man weiß, wo es vielleicht so Schwächen gibt, die nur von bestimmten Ländern, also wie sagt man das, also dass die Leute aus einem bestimmten Land eben genau diese Schwäche haben.“B2: „Dass man im Lehrerberuf eben kompetent ist, […] sich eben Kindern aus verschiedenen Migrationen, […] auseinanderzusetzen und ja, versucht, sag ich mal, deren Verhaltensweisen nachzuvollziehen und irgendwie vor diesem Hintergrund einordnen zu können.“ Nur inhaltliches Verständnis des Begriffs, keine wertenden Äußerungen
ThematischeErfahrungen

 

 

Induktive Kategorienbildung:

Bei der induktiven Vorgehensweise werden die Kategorien nicht vor der Sichtung des Materials erstellt, sondern direkt aus dem Material abgeleitet, ohne sich auf vorab verwendete Theoriekonzepte zu beziehen. Mayring bezeichnet diese Art der Kategorienbildung als zusammenfassende Inhaltsanalyse. Das Ziel besteht in der Eingrenzung der Textelemente, ohne den inhaltlichen Kern und die Essenz des Materials zu verfälschen. Durch diese Reduzierung soll eine Übersichtlichkeit der Daten erzeugt werden, welche immer noch der Grundform des Materials entspricht (vgl. Mayring 2010, S. 65). Für diesen Typ der Analyse sollten Sie zunächst die einzelnen verschriftlichten Interviewaussagen aus Ihren Transkripten in eine reduzierte Form bringen, indem Sie nur die inhaltstragenden Bestandteile beibehalten und Ausschmückendes fallen lassen. Sich aufeinander beziehende oder inhaltsgleiche Aspekte werden zusammengefasst und durch eine neue Aussage (Kategorie) wiedergegeben. Entsprechende Stellen im Material werden nun der neu gebildeten Kategorie zugeordnet, also kodiert. Stoßen Sie auf Stellen im Datenmaterial, welche nicht in die zuvor gebildete Kategorie passen, bilden Sie eine neue Kategorie. Wiederholen Sie dieses Vorgehen mit Ihren restlichen Daten. Nachdem Sie nun auf diesem Wege ein Kategoriensystem entwickelt haben, empfiehlt sich eine Rücküberprüfung der entworfenen Struktur durch einen zweiten Materialdurchlauf.

 

Fall Zitat Paraphrase Generalisierung Kategorie
B9Zeile 40-43 „Ganz wichtig natürlich als Lehrer ist diese Offenheit, nicht dieses von oben herab, sondern wirklich auch den Eltern das Gefühl zu geben, hier ist es auch wichtig bei uns in Deutschland, für uns wichtig an Erfahrung mit den Eltern zusammenzuarbeiten, um den Kindern das Bestmögliche für die Zukunft mitzugeben.“ Für eine Lehrperson ist die Offenheit zur Zusammenarbeit mit den Eltern wichtig für die Zukunft der Kinder. Bereitschaft der Lehrperson für die Partizipation der Eltern. Verhalten der Lehrperson
B9Zeile 44-52

 

Verbindung von deduktivem und induktivem Vorgehen

Innerhalb von Forschungsprojekten werden häufig beide Formen kombiniert und nicht immer in Reinform vollzogen. Wenn Sie zunächst die deduktive Kategorienbildung gewählt haben, bilden Sie neben den aus der Theorie oder dem Erhebungsinstrument erstellten Kategorien eine „Restekategorie“. Unter diese fällt das Datenmaterial, welches keiner der deduktiv erstellten Kategorien zugeordnet werden kann. Durch eine Reduktion des Materials aus der Restekategorie auf die zentralen bedeutungstragenden Aussagen (im Sinne der zusammenfassenden Inhaltsanalyse) werden neue Kategorien und Subkategorien induktiv gebildet.

Das gesamte Kategoriensystem kann nun in Bezug auf die Fragestellung und die einbezogene Theorie interpretiert werden. Zudem können Sie auch quantitative Aspekte bei der Auswertung berücksichtigen und analysieren, welche Kategorien sehr oft kodiert werden, für welche es weniger Fundstellen gibt und welche Rückschlüsse aus diesen Ergebnisse gezogen werden können.

 

Softwareempfehlungen:

Für geringere Datenmengen eignen sich übliche Textverarbeitungsprogramme wie Microsoft Word, OpenOffice und andere Open Source-Software. Umfangreichere Möglichkeiten zur Kodierung Ihrer Daten bieten Analyseprogramme wie f4analyse oder MAXQDA. Die direkte Einbindung von Audio- oder Videodokumenten sowie der Export in weitere Programme wie Excel oder SPSS sind hier möglich. Informieren Sie sich über kostenfreie Testversionen oder Studierendenlizenzen an Ihrer Universität.

https://www.youtube.com/watch?v=kyAruQIHkjw

 

Literatur:

Kuckartz, Udo (2012): Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung. Weinheim und Basel: Beltz Juventa.

Kuckartz, Udo (2007): Einführung in die computergestützte Analyse qualitativer Daten. 2., aktualisierte und erweiterte Auflage. Wiesbaden: VS Verlag für Sozialwissenschaften.

Mayring, Philipp (2010): Qualitative Inhaltsanalyse. Grundlagen und Techniken. 11., aktualisierte und überarb. Aufl. Weinheim: Beltz.

Mayring, Philipp; Gläser-Zikuda, Michaela (Hrsg.) (2008): Die Praxis der qualitativen Inhaltsanalyse. 2., neu ausgestattete Aufl. Weinheim und Basel: Beltz.

 

 

Zusammenhangsmaße

Carla Bohndick

 

Wenn Sie untersuchen wollen, ob Zusammenhänge zwischen zwei Variablen bestehen, berechnen Sie die Korrelation. Zunächst ist dies eine deskriptive Fragestellung. Sie können die verschiedenen Zusammenhangsmaße aber auch inferenzstatistisch absichern. In diesem Kapitel wird verdeutlicht, was unter einer Korrelation verstanden wird. Außerdem werden Interpretationsprobleme dargestellt.

Die am häufigsten verwendete Möglichkeit, Zusammenhänge zwischen zwei Variablen zu berechnen, ist die Produkt-Moment-Korrelation. Um diese zu berechnen, müssen beide Variablen mindestens intervallskaliert sein. Im Folgenden berechnen wir die Korrelation zwischen dem Alter und der Motivation, genauer der Variable Mot 1 aus diesem Beitrag.

Zunächst müssen Sie die Kovarianz berechnen, die Formel dafür lautet:

Formel 18

Wenn Sie diese Formel genauer betrachten, fällt Ihnen sicherlich die Ähnlichkeit zu der in diesem Beitrag vorgestellten Varianz auf. Die Varianz ist nämlich lediglich die Kovarianz einer Variablen mit sich selber, also statt y würden Sie hier x einsetzen und so käme das Quadrat ins Spiel. Für unser Beispiel lässt sich also folgende Kovarianz berechnen:

Sei x = Alter und somit y= Mot1. Zuerst berechnen wir die Mittelwerte der Variablen x und y:

Formel 19

Formel 20

Nun können wir die Kovarianz berechnen:

Formel 21

Wir erhalten für unser Beispiel also eine Kovarianz von ca. 0,1776. Grundsätzlich kann die Kovarianz beliebig große Werte annehmen. Positive Werte sprechen dabei für einen positiven Zusammenhang zwischen den beiden Variablen und negative Werte für einen negativen Zusammenhang. Für unser Beispiel heißt das also, dass ein positiver Zusammenhang besteht.

Besser als die Kovarianz lässt sich die Korrelation (r) interpretieren. Für die Korrelation wird die Kovarianz anhand der Standardabweichungen (vgl. hier) der beiden Variablen standardisiert:

Formel 22

Zur Erinnerung: Die Standardabweichung ist gleich der Wurzel der Varianz.

Die Berechnung für unser Beispiel sieht also wie folgt aus:

Formel 23

SD_y neu

Somit können wir r wie folgt berechnen:

r neu Zsmh-maße

 

Der Korrelationskoeffizient r kann Werte von -1 bis 1 annehmen. Bei -1 liegt ein perfekt negativer Zusammenhang vor, bei 0 liegt kein (linearer) Zusammenhang vor und bei 1 liegt ein perfekt positiver Zusammenhang vor. Welche Korrelationen als groß und welche Korrelationen als klein bezeichnet werden, lässt sich nicht abschließend bestimmen. Einige Autoren sehen Korrelationen ab 0.5 als groß, Korrelationen um 0.3 als moderat und Korrelationen um 0.1 als klein (Cohen, 1988), andere hingegen sehen Korrelationen bis 0.5 als gering, 0.7 als moderat und 0.9 als hoch an (Nachtigall & Wirtz, 2004). Letztlich kommt es auf den publizierten Forschungsstand zu einer konkreten Fragestellung an, welche Werte als bedeutsam betrachtet werden. Im sozialwissenschaftlichen Bereich ist es für neue Forschungsfragen üblich, von der genannten Konvention nach Cohen auszugehen. Für unser Beispiel gehen Sie bitte davon aus, dass Werte ab 0.3 als bedeutsam angesehen werden können. Das heißt also, dass zwischen dem Alter und der Variable Mot1 ein geringer positiver Zusammenhang besteht.

Um die verschieden starken Korrelationen besser zu illustrieren, finden Sie in den Abbildungen unten Beispiele für mögliche Korrelationen. Jeder Datenpunkt kann dabei einer Versuchsperson zugeordnet werden und zeigt damit das Ergebnis für zwei verschiedene Variablen an. Dabei ist die eine Variable auf der x-Achse und die andere Variable auf der y-Achse abgetragen.

Nullkorrelation   r = .84

r = 1   r = -1

 

Abb. 1 Verschiedene Korrelationen, Bewertung nach Cohen (1988)

Interpretationsprobleme: Korrelation und Kausalität

Stellen Sie sich vor, Sie hätten nun die Korrelation zwischen Leseleistung und Lesemotivation errechnet. Herausgekommen wäre r = 0.5, also ein moderater Zusammenhang zwischen den beiden Variablen. Sie können nun allerdings keine Aussagen über die Richtung des Zusammenhangs treffen. Das heißt, Aussagen wie „eine höhere Leseleistung führt zu einer höheren Lesemotivation“ oder andersherum „eine höhere Lesemotivation führt zu einer höheren Leseleistung“ sind nicht zulässig. Um Wirkrichtungen festzustellen, bedarf es spezieller Designs (vgl. Kapitel zur Planung). Manchmal ist auch eine dritte Variable z Auslöser für den Zusammenhang. Hier könnte z.B. die Begeisterung der Eltern für das Lesen (z) sowohl einen Einfluss auf die Lesemotivation (x) und auf die Leseleistung (y) haben, wie auch die folgende Abbildung veranschaulicht.

Diagramm 6

Um die Problematik zu verdeutlichen, sehen Sie im Folgenden weitere Beispiele, in denen fälschlicherweise eine bestimmte Richtung des Zusammenhangs angenommen wurde. Versuchen Sie doch einmal, die Gründe zu finden, die zu dem jeweiligen Zusammenhang geführt haben.

  • Je mehr Leute der Feuerwehr eingesetzt werden, desto höher ist später der Brandschaden.
  • Je größer die Füße, desto größer das Gehalt.
  • Gute Luft (z.B. in Kurorten) führt zu einer erhöhten Sterblichkeitsrate.

 

Software-Empfehlungen:

Sie können Korrelationen per Hand berechnen, aber es gibt auch Computerprogramme, die Sie bei der Berechnung unterstützen können. Dies sind beispielsweise einfache Tabellenkalkulationsprogramme wie z.B. Excel, Sie können aber auch spezielle Software wie SPSS (kostenpflichtig) oder R (Open Source und kostenfrei) nutzen.

 

Literatur:

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps (2., überarb. Aufl). Bern: Huber.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.). Hillsdale: L. Erlbaum Associates.

Krämer, W. (2009). So lügt man mit Statistik (12. Aufl.). München: Piper.

Nachtigall, C. & Wirtz, M. A. (2004). Wahrscheinlichkeitsrechnung und Inferenzstatistik (3. Aufl.). Weinheim: Juventa Verlag.

Inferenzstatistik

Carla Bohndick

Im Beitrag zur Deskriptiven Statistik haben Sie erfahren, wie Sie Ihre Daten beschreibend darstellen können. Häufig wollen Sie aber herausfinden, ob Ihre Daten Ihre postulierte Hypothese bestätigen (vgl. Kapitel zur Planung) Wenn Sie also beispielsweise die Hypothese aufgestellt haben, dass sich die Lesemotivation von Jungen und Mädchen unterscheidet, müssen Sie diese Hypothese prüfen.

Prüfung von Hypothesen

Das Grundprinzip zur Überprüfung ist immer ähnlich: Sie vergleichen, wie wahrscheinlich die von Ihnen gefundenen Kennwerte (z.B. Lagemaß, Streuungsmaß, Zusammenhangsmaß) sind, wenn man eine theoretisch angenommene Verteilung der Kennwerte zugrunde legt, mit einem per Konvention festgelegten Wahrscheinlichkeitswert (siehe unten „Signifikanz“). Diese zugrunde gelegte theoretische Verteilung wird als H0 (sprich: H-null) oder Nullhypothese bezeichnet, weil die Wahrscheinlichkeit für die gefundenen Kennwerte unter der Annahme berechnet wird, dass es null Unterschied zwischen den verglichenen Gruppen bzw. null Zusammenhang zwischen den untersuchten Variablen gibt. Die Annahmen, dass es dementgegen doch Unterschiede bzw. Zusammenhänge gibt, werden zusammenfassend als Alternativhypothese bzw. H1 bezeichnet.

Neben der Unterscheidung zwischen H0 bzw. H1 und Unterschieds- bzw. Zusammenhangshypothese wird auch noch nach ungerichteten bzw. gerichteten Hypothesen differenziert. Eine Hypothese ist ungerichtet, wenn die Alternativhypothesen sowohl positive als auch negative Abweichungen von der Nullannahme umfassen. Bei gerichteten Hypothesen ist festgelegt, dass nur Abweichungen in eine Richtung gegen die Nullhypothese sprechen, Abweichungen in die andere Richtung aber als für die Nullhypothese sprechend interpretiert werden (beispielsweise, weil sowohl Nullunterschiede als auch Abweichungen in die unerwartete Richtung gegen die inhaltlichen Forschungsannahmen sprechen).

Beispiele:

H1 H0
Unterschiedshypothese ungerichtet Es gibt einen Unterschied in der Lesemotivation von Jungen und Mädchen.
Formel 8
Es gibt keinen Unterschied in der Lesemotivation von Jungen und Mädchen.
Formel 9
Unterschiedshypothese gerichtet Die Lesemotivation von Jungen ist höher als die von Mädchen.
Formel 10
Die Lesemotivation von Jungen ist kleiner oder gleich der Lesemotivation von Mädchen.
Formel 11
Zusammenhangshypothese ungerichtet Die Lesemotivation hängt mit dem Alter der Schülerinnen und Schüler zusammen.
Formel 12
Die Lesemotivation hängt nicht mit dem Alter der Schülerinnen und Schüler zusammen.
Formel 13
Zusammenhangshypothese gerichtet Die Lesemotivation steigt mit höherem Alter der Schülerinnen und Schüler.
Formel 14
Die Lesemotivation sinkt mit höherem Alter der Schülerinnen und Schüler oder bleibt gleich.
Formel 15

 Signifikanz

Im nächsten Schritt testen Sie, ob es Evidenz gegen – also Zweifel an der – Nullhypothese gibt. Die Logik dahinter ist, dass Sie es sich besonders schwer machen und die H0 so lange beibehalten, bis Sie sehr viel Evidenz gegen die H0 haben. Dies nennt sich Signifikanzprüfung. Dafür legen Sie ein Signifikanzniveau α fest (nach Konvention meist 5% oder 1%). Dies ist die Wahrscheinlichkeit, mit der die Nullhypothese abgelehnt wird, obwohl sie richtig ist. Wenn die errechnete Wahrscheinlichkeit kleiner ist als das vorher festgelegte Signifikanzniveau, heißt dies, dass Ihre Nullhypothese mit den Werten, die Sie erhoben haben, praktisch nicht vereinbar ist. Sie können H0 also verwerfen und die H1 akzeptieren.

Beispiel:

  • Sie wollen die Hypothese überprüfen, dass es einen Unterschied in der Lesemotivation von Jungen und Mädchen gibt.
  • Dafür stellen Sie die Nullhypothese „Es gibt keinen Unterschied zwischen Mädchen und Jungen“ auf.
  • Das Signifikanzniveau legen Sie mit 5% (α = 0,05) fest.
  • Durch einen passenden Signifikanztest (z.B. den unten vorgestellten t-Test) erhalten Sie eine Aussage über die Wahrscheinlichkeit, mit der Ihre Daten auftreten würden, wenn man die Nullhypothese annimmt, wenn es also keinen Unterschied zwischen Jungen und Mädchen gäbe.
  • Ein Wert von 5,1% (p = 0,051) würde also dafür sprechen, die Nullhypothese beizubehalten, da diese nicht abgelehnt werden kann bzw. es nicht genug Evidenz gegen diese gibt.
  • Demgegenüber würde ein Wert von 4,9% (p = 0,049) dafür sprechen, die Nullhypothese zu verwerfen. Sie könnten also feststellen, dass der Unterschied zwischen Mädchen und Jungen auf dem 5%-Niveau signifikant ist.

Verfahren zur Prüfung der Signifikanz bei Unterschiedshypothesen: Beispiel t-Test

Ein häufig angewandtes Verfahren, um Unterschiedshypothesen zu überprüfen, ist der t-Test. Dieser kann (leicht abgewandelt) für verschiedene Fragen verwendet werden:

  • Unterscheidet sich der Mittelwert der Stichprobe zu einem Messzeitpunkt von dem Mittelwert derselben Stichprobe zu einem anderen Messzeitpunkt (Messwiederholung)? Sie könnte beispielsweise interessieren, ob sich die Leistung der Schülerinnen und Schüler vom Anfang bis zum Ende des Schuljahres verbessert hat.
  • Unterscheidet sich der Mittelwert einer Stichprobe von dem Mittelwert einer anderen Stichprobe? Diese Frage ist beispielsweise dann interessant, wenn wie oben zwei Gruppen wie Mädchen oder Jungen oder Kinder der vierten Klasse und Kinder der fünften Klasse verglichen werden sollen.
  • Unterscheidet sich der Mittelwert der Stichprobe von einem bestimmten gesetzten Wert? Diese Frage ist beispielsweise dann interessant, wenn Sie einen festgesetzten Wert haben und zum Beispiel untersuchen wollen, ob sich die maximale Konzentrationsfähigkeit von Schülerinnen und Schülern signifikant von einer Schulstunde von 45 Minuten unterscheidet.

Das Prinzip hinter dem t-Test ist wie folgt: Aus den Mittelwerten und der Standardabweichung (also statistischen Kennwerten) wird ein Wert (der Testwert) berechnet. Dieser Wert wird anschließend mit einer Verteilung verglichen.

Bei unserem Beispiel handelt es sich um zwei unabhängige Stichproben, also die Stichprobe der Jungen und die Stichprobe der Mädchen. Für den Fall, dass Sie gleich viele Mädchen wie Jungen befragt haben, die Stichproben also gleich groß sind, lautet die Formel wie folgt:

Formel 16

Im Zähler steht die Differenz der Mittelwerte. In unserem Beispiel wäre das also der Mittelwert der Lesemotivation der Jungen, der von dem Mittelwert der Lesemotivation der Mädchen abgezogen wird. Um den Nenner zu berechnen, brauchen Sie die Gesamtstichprobengröße n sowie die Varianz beider Gruppen. Wie Sie diese berechnen, können Sie hier nachlesen. Das Ergebnis ist Ihr Testwert t, den Sie nun mit dem kritischen t-Wert vergleichen. Dieser kritische t-Wert wird berechnet, indem die H0, dass es keine Unterschiede zwischen den Gruppen gibt, zugrunde gelegt wird. Wenn Sie einen empirischen t-Wert aus Ihren Daten berechnet haben, der extremer ist als der kritische t-Wert, dann bedeutet dies, dass Ihre gefundenen Daten sehr schlecht zu der Annahme passen, dass es keine Unterschiede gibt. Sie lehnen deswegen in diesem Fall die H0 ab. Um den kritischen t-Wert herauszufinden, können Sie Verteilungsfunktionen heranziehen, die in Statistiklehrbüchern in Tabellenform abgedruckt sind. Diese Aufgabe übernimmt Ihre Statistiksoftware (s. Softwareempfehlungen) aber auch für Sie. Wichtig ist in beiden Fällen, dass Sie beachten, ob Ihre Forschungshypothese gerichtet oder ungerichtet ist. Zu gerichteten Hypothesen gehören einseitige Testungen bzw. die unmittelbar ablesbaren Signifikanz-Grenzen und zu ungerichteten Hypothesen zweiseitige Testungen bzw. die halbierten tabellierten Signifikanz-Grenzen (sofern die Tabellen für einseitige Testungen ausgelegt sind).

Voraussetzung für den t-Test ist, dass das Merkmal normalverteilt oder Ihre Stichprobe groß genug ist. Falls dies bei Ihnen nicht der Fall ist, stehen Ihnen nonparametrische Verfahren zur Verfügung, die nach ähnlichen Prinzipien funktionieren. Auch für weitere Fragestellungen, wie klassische Evaluationsdesigns (vgl. Planung von Studien), existieren passende Methoden, wie z.B. die Varianzanalyse mit Messwiederholung. Auch Zusammenhangshypothesen werden nach demselben Verfahren (statistischen Kennwerte – Testwerte – Vergleich mit Verteilung) geprüft.

Effektstärke

Die Signifikanz ist u.a. von der Stichprobengröße abhängig, bei sehr großen Stichproben werden auch kleinste Effekte signifikant, bei sehr kleinen Stichproben auch große nicht. Deshalb ist es sinnvoll, wenn Sie zusätzlich zur Signifikanz auch Effektstärken berichten. Darunter können standardisierte Kennwerte verstanden werden, die beispielsweise Aussagen über die Relevanz von Mittelwertunterschieden machen.  Durch die Standardisierung ist es möglich, Ergebnisse verschiedener Studien zu vergleichen und zusammen zu fassen.

Ein Beispiel dafür ist Cohens d, eine Effektgröße für Mittelwertunterschiede. Wenn die beiden Gruppen, die Sie vergleichen, dieselbe Gruppengröße n haben, wird der Wert mit folgender Rechnung geschätzt:

Formel 17

Ähnlich wie bei der Formel zur Berechnung des t-Wertes steht dabei im Zähler wieder die Differenz der Mittelwerte, im Nenner stehen die Varianzen. Der Unterschied ist, dass hier nicht durch die Stichprobe geteilt wird (s.o.). Ihr Ergebnis können Sie folgendermaßen interpretieren: kleiner Effekt: d = 0,2; mittlerer Effekt: d = 0,5; großer Effekt: d = 0,8 (Cohen, 1988).

Eine Effektstärke für Zusammenhangshypothesen ist r und wird im Kapitel Zusammenhangsmaße eingeführt.

 

Softwareempfehlungen:

Zur Prüfung von Hypothesen bietet sich die Nutzung spezieller Statistiksoftware wie SPSS (kostenpflichtig) oder R (kostenfrei) an. Effektstärken werden häufig nicht angegeben. Diese können Sie sich aber einfach mit Tabellenkalkulationsprogrammen programmieren oder mit dem Taschenrechner per Hand ausrechnen.

 

Literaturempfehlungen:

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps (2., überarb. Aufl). Bern: Huber.

Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler (4. Aufl.). Heidelberg: Springer.

Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Berlin: Springer.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.). Hillsdale: L. Erlbaum Associates.