Item- und Skalenanalyse

Robert Kordts-Freudinger

Sie haben mit Ihrem Fragebogen oder Beobachtungsbogen oder mit einer anderen Erhebungsmethode quantitative Daten gesammelt! Herzlichen Glückwunsch! Nun geht es darum, diese Daten sinnvoll auszuwerten.

Die deskriptive Auswertung der Daten geschieht in der Regel nicht auf der Ebene der einzelnen Fragen (Items), sondern auf der Ebene der Skalen (oder Subtests) Ihrer Erhebung. Die folgenden Kapitel beschreiben, wie Sie diese Skalen bilden können.

 

  1. Warum Skalen bilden?

Ein Beispiel:

Sie haben 40 Schüler/innen zu ihrem Leseselbstkonzept und zu ihrer Lesemotivation mit einem Fragebogen befragt. Der Fragebogen hat 14 Items, von denen 8 das Leseselbstkonzept und 6 die Lesemotivation erfassen sollen. Die 5-stufige Antwortskala geht von ‚0‘ (trifft überhaupt nicht zu) bis ‚4‘ (trifft voll und ganz zu).

(vermutete) Skala Item-Nummer Formulierung des Items
Leseselbstkonzept 1 Ich mag Lesen.
2 Ich hasse es, zu lesen.
3 Das Lesen fällt mir immer extrem leicht.
4 Lesen fällt mir sehr leicht.
5 Lesefähigkeiten sind für mich später wichtig.
6 Ich bin ein guter Leser.
7 Mir macht Lesen Freude.
8
Lesemotivation 9 Ich habe Lust auf’s Lesen.
10 Ich habe selten Zeit, ein Buch zu lesen.
11 Meine Eltern belohnen mich, wenn ich etwas lese.
12
13
14

Wie im Beitrag zu Fragebögen kurz erklärt, bilden in der Regel mehrere Items eine Skala. Dies erhöht in der Regel die Reliabilität (Zuverlässigkeit) der Erfassung (siehe unten), die eine wichtige Voraussetzung für eine hohe Validität ist. Diese Skala und damit alle dazu gehörigen Items sollen ein Merkmal erfassen. In unserem Beispiel sollen also die 8 Items zusammen das Leseselbstkonzept erfassen.

Diese Skalen sollten die folgenden Eigenschaften aufweisen (Pospeschill, 2013, S. 114):

  • verschiedene Schwierigkeiten der Items: Erfassung verschiedener Ausprägungsgrade des Merkmals
  • hohe Reliabilität: verlässlich und genaue Messung
  • hohe Trennschärfe der Items: Differenzierung von Personen mit hoher Merkmalsausprägung von Personen mit schwacher Merkmalsausprägung
  • Homogenität (Dimensionalität): Die Items der Skala erfassen nur eine Dimension des theoretischen Konstrukts
  • hohe Testobjektivität: eindeutig auswertbar
  • hohe Testvalidität: gute Begründung dafür, dass auch wirklich das zu erfassende Konstrukt gemessen wird.

Die alles entscheidende Frage:

Treffen diese Eigenschaften auf Ihre Skala „Leseselbstkonzept“ wirklich zu?

Mithilfe einer Skalenanalyse können Sie Antworten zu den Aspekten der Item-Schwierigkeit, Reliabilität, Trennschärfe und Dimensionalität finden. Wie, wird im Folgenden dargestellt.

Achtung: In machen Fragebögen sind einige Items negativ gepolt. Im Beispiel ist Item Nr. 2 „Ich hasse das Lesen“ anders gepolt als die anderen Items dieser Skala. Wenn die generelle Richtung der Antwortskala eine positive ist, müssen Sie das negativ gepolte Item vor allen Berechnungen umpolen, d.h. niedrige Werte dieses Items durch gespiegelt hohe Werte ersetzen usw. (4 -> 0, 3 -> 1, 2 -> 2, 1 -> 3, 0 -> 4).

 

  1. Item-Schwierigkeit

Zunächst empfehle ich Ihnen die Analyse der einzelnen Items. Hierfür bietet sich der Index der „Item-Schwierigkeit“ an. Dieser Index gibt an, von wie vielen Teilnehmenden das jeweilige Item mit hohen Werten beantwortet wird, also z.B. wie viele Teilnehmende mit „Ja“ oder „Stimme eher/voll zu“ geantwortet haben oder wie viele Teilnehmende die Multiple Choice-Aufgabe korrekt gelöst haben.

Berechnung:

Die Schwierigkeit wird bei Ratingskalen in der Regel wie der Mittelwert (s. Deskriptive Statistik) berechnet: Man summiert die Werte dieses einen Items über alle Teilnehmenden auf und teilt diese Summe durch die Anzahl der Teilnehmenden.

Voraussetzung für die Berechnung der Schwierigkeit als Mittelwert ist, dass die niedrigste Ausprägung des Items mit ‚0‘ kodiert ist und dass die höheren Werte aufsteigend mit ‚1‘, ‚2‘, ‚3‘ etc. kodiert sind. Wie oben gesagt, sollten die Schwierigkeiten der Items, die gemeinsam eine Skala bilden, einen möglichst breiten Bereich abdecken (möglichst unterschiedlich hoch sein). Dabei sollte es nicht zu viele Items mit extremen Schwierigkeiten geben.

Anmerkung:

Im Falle eines hohen Schwierigkeits-Werts (Mittelwerts) nennt man das Item „psychometrisch schwer“, bei niedrigen Werten „psychometrisch leicht“. Im Beispiel könnten also 2 der Items für die Skala Leseselbstkonzept eine niedrige Schwierigkeit (zwischen 0 und 1) aufweisen, z.B. das Item Nr. 3 „Das Lesen fällt mir immer extrem leicht.“

Daneben könnten 4 andere Items eine mittlere Schwierigkeit aufweisen (zwischen 1 und 3) und die restlichen 2 Items könnten eine hohe Schwierigkeit aufweisen (zwischen 3 und 4), z.B. das Item Nr. 5 „Lesefähigkeiten sind für mich später wichtig.“

 

  1. Reliabilität

Da eine hohe Reliabilität wichtige Voraussetzung dafür ist, dass Sie Zusammenhänge und Unterschiede in Ihren Daten finden können, sollten Sie die Reliabilität Ihrer Skala bestimmen (s.a. Beitrag zur Planung).

Hierfür haben Sie verschiedene Rechen-Möglichkeiten. In diesem Kapitel konzentrieren wir uns auf die relativ leicht umsetzbaren Split-Half-Methode und die Methode der internen Konsistenz. Die auch möglichen Methoden Testwiederholung oder Paralleltest erklärt z.B. Bühner (2011, S. 235ff).

  1. a) Split-half

Bei dieser Rechnung wird die Skala, die Sie untersuchen, in zwei gleich große Hälften aufgeteilt und die Ergebnisse beider Hälften miteinander korreliert (in Zusammenhang gesetzt). Je höher die Korrelation zwischen beiden Hälften, desto zuverlässiger erfasst die Skala ein Konstrukt.

Achtung: WELCHES Konstrukt erfasst wird, ist hiermit noch nicht geklärt. Dies ist eine Frage der Validität.

Berechnung:

Sie können die Skala entweder nach 1. Hälfte und 2. Hälfte aufteilen oder (vor allem wenn die Skala aus sehr vielen Items besteht und die Antwortenden „ermüdet“ werden könnten) nach geraden und ungeraden Items aufteilen (sog. odd even-Methode).

Im Beispiel könnten Sie für die Skala Leseselbstkonzept eine Subskala mit allen Items mit einer ungeraden Nummer (Items Nummern 1, 3 und 5) und eine Subskala mit allen Items mit einer geraden Nummer (Items Nummern 2, 4 und 6) bilden. Die Skalenwerte dieser beiden Subskalen (z.B. Summen- oder Mittelwerte) korrelieren Sie dann miteinander. Weitere Details zum Vorgehen finden Sie z.B. bei Bühner (2011, S. 236).

  1. b) Interne Konsistenz

Bei dieser – am häufigsten angewendeten – Berechnung der Reliabilität werden alle einzelnen Items miteinander korreliert und der Wert dieser Korrelation als Index für die Reliabilität interpretiert. Der am häufigsten genannte Index „Cronbachs Alpha“ gibt dabei den Wert der Reliabilität an: Je höher, desto besser.

Berechnung:

Der Kern der Formel für Cronbachs Alpha besteht aus den durchschnittlichen Korrelationen aller Items der Skala.

Generell gilt: Je mehr Items zu einer Skala gehören, desto höher Cronbachs Alpha.

Die Reliabilität sollte einen Wert von über .8 aufweisen. Ab einem Wert von .9 aufwärts spricht man von einer hohen Reliabilität (Bortz & Döring, 2006, S. 199). Alle Reliabilitäts-Werte unterhalb .7 benötigen daher einer Überarbeitung oder zumindest eines Überdenkens der Skala.

Im Beispiel könnte Cronbachs Alpha der Skala Leseselbstkonzept mit den Items in der Tabelle (siehe oben) eventuell nur einen Wert von .52 betragen. In so einem Fall können Sie versuchen, über das Weglassen einzelner Items, die wenig zum Wert beitragen, den Wert der Skala zu erhöhen (siehe Bühner, 2011).

 

  1. Trennschärfe

Die Items einer Skala sollen – bei hoher Reliabilität – Personen mit niedriger Merkmalsausprägung (z.B. Schüler/innen mit einem schwach ausgeprägten Leseselbstkonzept) von solchen unterscheiden können, die eine hohe Merkmalsausprägung aufweisen (z.B. Schüler/innen mit einem stark ausgeprägten Leseselbstkonzept). Damit dieses Kriterium erfüllt ist, müssen die Items einer Skala trennscharf sein.

Berechnung:

Die Trennschärfe eines Items berechnet sich aus der Korrelation dieses Items mit dem Wert der Skala, zu der das Item gehören soll. Je höher der Wert, desto besser repräsentiert dieses Item die Gesamt-Skala, zu der es gehört.

Die Trennschärfe sollte einen Wert von über .5 aufweisen (Bortz & Döring, 2006, S. 220). Alle Items mit Trennschärfen-Werten unterhalb .3 benötigen daher einer Überarbeitung der Skala, z.B. durch Streichen der betroffenen Items.

Im Beispiel könnte die Trennschärfe des Items Nr. 4 „Lesen fällt mir sehr leicht“ der Skala Leseselbstkonzept einen Wert von .61 betragen. Dies würde inhaltlich bedeuten, dass Schüler/innen, denen (nach Selbstaussage) das Lesen leicht fällt, auch diejenigen sind, die generell ein positives Leseselbstkonzept aufweisen (zumindest mit der Skala „Leseselbstkonzept“). Ein niedriger (positiver) Wert von .13 oder sogar negative Werte wie -.23 würden bedeuten, dass Schüler/innen, denen das Lesen leicht fällt, wahrscheinlich kein positives Leseselbstkonzept haben, da die anderen Items in dieser Skala in eine andere Richtung deuten können.

 

  1. Dimensionalität

Auch wenn die Items (z.B. Item Nr. 4 „Lesen fällt mir sehr leicht“) einer Skala (z.B. Leseselbstkonzept) mit genau dieser Skala hoch korrelieren (= eine hohe Trennschärfe aufweisen), kann es doch sein, dass sie auch mit den ANDEREN SKALEN ebenfalls hoch korrelieren (z.B. mit der Skala Lesemotivation). Alternativ könnte es auch sein, dass die Items Ihrer Skala (Leseselbstkonzept) gar nicht inhaltlich alle das Gleiche erfassen, sondern unterschiedliche Sachen. In der Regel sind diese beiden Fälle nicht erwünscht: Die Items eine Skala sollen „exklusiv“ zu dieser Skala gehören und nicht zu mehreren und pro Skala soll es nur eine inhaltliche Dimension geben. Vor allem dann, wenn eine dieser beiden Befürchtungen besteht und wenn Sie Items neu formuliert haben und bisher noch nicht empirisch getestet haben, sollten Sie deshalb eine Berechnung der Dimensionalität der Skalen vornehmen.

Hierfür wird in der Regel das statistische Verfahren der Faktorenanalyse (explorative oder konfirmatorische) durchgeführt.

Berechnung:

Die Faktorenanalyse bestimmt mittels verschiedener Verfahren die den Daten zugrundeliegenden Strukturen, die die Daten mit weniger als den ursprünglichen Items erklären können. Wenn mehrere Items das Gleiche erfassen, sollten sie auch hoch miteinander korrelieren. Die Faktorenanalyse bestimmt einen Faktor, der die gemeinsamen Anteile dieser miteinander korrelierenden Items repräsentiert (sozusagen den „Overlap“, das Gemeinsame dieser Items). Damit macht die Faktorenanalyse gleichzeitig die Struktur Ihrer Daten einfacher (weniger komplex). Ferner erhalten Sie im günstigen Fall dadurch die Bestätigung, dass den Items einer Skala (z.B. Leseselbstkonzept) wirklich nur ein gemeinsamer (in der Faktorenanalyse ermittelter) inhaltlicher Faktor zugrunde liegt. Das heißt, dass alle Items Ihrer Skala tatsächlich empirisch zusammenhängen und nicht zum Beispiel durch noch einen anderen Faktor erklärt werden können. Wenn es nur einen Faktor der Items einer Skala gibt, würden die Items Ihrer Skala „das Gleiche“ erfassen (WAS sie erfassen, das ist allerdings eine Frage der Validität!).

Details zur Faktorenanalyse inklusive aller Berechnungsschritte und Interpretationen finden Sie bei Bühner (2011, S. 295ff.).

Im Beispiel könnten Sie mittels der Faktorenanalyse aber auch herausfinden, dass – entgegen Ihrer Annahme – die ursprüngliche Skala Leseselbstkonzept tatsächlich aus zwei verschiedenen inhaltlichen Skalen besteht: der Skala „Leseselbstkonzept“ (z.B. mit dem Item Nr. 4 „Lesen fällt mir sehr leicht.“) und der Skala „Spaß am Lesen“ (z.B. mit dem Item Nr. 7 „Mir macht Lesen Freude.“). Diese beiden Dimensionen würden als „Faktoren“ oder „Komponenten“ vom Statistikprogramm ausgegeben werden. Sie würden daraufhin Ihre Skala „Leseselbstkonzept“ überarbeiten, hätten gleichzeitig aber auch eine neue Skala empirisch gefunden, mit der Sie weiterrechnen können. Mit Ihrer (neu gefundenen oder bestätigten) Skalenstruktur können Sie nun den Mittelwert (manchmal auch: die Summe) aller Items der Skala oder den Faktor aus der Faktorenanalyse als Skalenwert verwenden. Für diesen Skalenwert können Sie dann Mittelwerte und Standardabweichungen über die Antwortenden berechnen sowie andere deskriptive und inferenzstatistische Auswertungen vornehmen.

 

  1. Ein Hinweis zum Schluss

Trotz aller mathematischen Berechnungen, die Sie mit Items und Skalen durchführen können und teilweise sollten, verlieren Sie nie die Semantik, den Inhalt der Items aus dem Blick. So kann man bei den oben aufgeführten Beispielen relativ schnell schon am Inhalt sehen, dass einige Items der Skala Leseselbstkonzept ganz andere Dimensionen erfassen als eben das Leseselbstkonzept und damit niedrige Trennschärfen, Reliabilitäten etc. berechnet werden (z.B. Items 1, 2, 7). Bei anderen Items sieht man schon an der Formulierung, dass sie sehr ähnliche Dinge erfassen (empirisch: hoch miteinander korrelieren werden und damit eins davon nicht nötig ist (z.B. Items 3 und 4). Diese inhaltlichen Erwägungen sind immer ein wichtiger Bestandteil der Item- und Skalenanalysen.

 

Software-Empfehlungen:

Für die Berechnung der in diesem Kapitel vorgestellten statistischen Verfahren empfehlen wir die Nutzung eines Statistik-Programms wie R oder SPSS.

https://www.youtube.com/watch?v=cX532N_XLIs&list=PLqzoL9-eJTNBDdKgJgJzaQcY6OXmsXAHU&index=1

Literatur

Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4. Aufl.). Berlin: Springer.

Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3. Aufl.). München: Pearson.

Pospeschill, M. (2013). Empirische Methoden in der Psychologie. München: UTB Reinhardt.

Fragebögen

Carla Bohndick

Schriftliche Befragungen werden meist mit Hilfe von Fragebögen durchgeführt. Unter einem Fragebogen kann eine sinnvolle Sammlung von Fragen, entweder auf Papier oder auch digital verstanden werden, die von den Untersuchungsteilnehmenden selbstständig und schriftlich beantwortet werden. Ein Vorteil ist, dass Fragebogenuntersuchungen sowohl in Ihrem Beisein, als auch auf postalischem Wege oder online durchgeführt werden können. Je nach Zweck können die Antwortmöglichkeiten in Fragebögen unterschiedlich stark standardisiert sein. Typischerweise geht mit einer stärkeren Standardisierung eine schnellere und einfachere Auswertung einher. Schwach standardisierte Befragungen sind dementgegen für gewöhnlich in neuen und schlecht strukturierten Forschungsfeldern angezeigt, in denen der explorative Charakter der Untersuchung im Vordergrund steht (s. Kapitel Standardisierung).

Ein Fragebogen besteht meist aus mehreren Teilen: In einer Einführung wird zunächst der Zweck der Untersuchung dargestellt. Darauf folgen häufig allgemeine Fragen zur Person, z. B. zum Geschlecht und Alter (soziodemographische Angaben) und schließlich werden die für die Forschungsfrage relevanten Themenbereiche behandelt. Am Schluss des Fragebogens können auch Fragen zur Nachbereitung, z. B. Evaluationsfragen zur Befragung selbst gestellt werden.

In einem Fragebogen können unterschiedliche Antwortmodalitäten eingesetzt werden. Dabei kann zwischen offener Beantwortung und der Auswahl von Antwortvorgaben unterschieden werden:

Bei der offenen Beantwortung erfolgt die Beantwortung frei, d.h. es sind keine Antwortauswahlmöglichkeiten vorgegeben. Ein Beispiel für eine offene Beantwortung wäre die Frage: In welchen Momenten liest du gerne? Hier ist zu erwarten, dass die Antworten sehr wenig durch Vorgaben der Forschenden begrenzt werden. Dies ist für explorative Zwecke sehr günstig, stellt aber hohe Anforderungen an die Auswertung. Ein anderes Beispiel wäre das Alter, welches mit folgender Frage ohne Antwortvorgaben erhoben werden kann: Wie alt bist du? Hier sind (von der Leserlichkeit der Antworten abgesehen) weder für das Antwortspektrum noch für die Auswertung besondere Vor- oder Nachteile im Vergleich zur Vorgabe von Antwortmöglichkeiten zu erwarten.

Bei Fragen mit Antwortvorgaben sind die Antwortmöglichkeiten vorgegeben, es handelt sich also um ein standardisiertes Fragenformat. Ein Beispiel für eine Frage mit Antwortvorgaben wäre also:
Besitzt du einen eBook-Reader? □ ja       □ nein

Hierbei lassen sich Fragen mit Einfachauswahl und mit Mehrfachauswahl unterscheiden. Bei der Einfachauswahl soll unter verschiedenen Antwortmöglichkeiten die am besten passende ausgesucht werden (wie z. B. die Frage nach dem Geschlecht). Bei der Mehrfachauswahl können mehrere Antwortalternativen ausgewählt werden. Ein Beispiel ist:

Aus welchen Gründen liest du?
□ Interesse am Inhalt des Textes
□ Interesse an der Sprache des Textes
□ Gewohnheit
□ Langeweile
□ Sonstige Gründe

Häufig sind Fragebögen so aufgebaut, dass verschiedene Aussagen vorgelegt werden, die auf einer Antwortskala, beispielsweise von 1 (trifft überhaupt nicht zu) bis 5 (trifft voll und ganz zu) bewertet werden sollen. Deshalb werden solche Antwortskalen auch als Ratingskala bezeichnet. Meist wird davon ausgegangen, dass die Abstände zwischen den Auswahlmöglichkeiten gleich sind und daher als metrisch betrachtet werden können (vgl. Beitrag zur Deskriptiven Statistik). Die Kombination aus Frage und Antwortmöglichkeit wird als Item bezeichnet.

Schritte bei der Erstellung eines Fragebogens

Im Folgenden können Sie die Erstellung eines Fragebogens schrittweise nachvollziehen. Der Fokus liegt dabei auf der Formulierung von Items zur Selbsteinschätzung. Die Auflistung kann auch für die Erstellung anderer Items nützlich sein, weitergehende Informationen finden Sie in der unten angegebenen Literatur.

Schritt 1: Festlegung der zu messenden Merkmale
Bei der Erstellung eines Fragebogens müssen Sie sich zunächst genau überlegen, welche Merkmale Sie messen wollen. Gehen wir davon aus, dass Sie den Zusammenhang zwischen dem Leseselbstkonzept und der Lesemotivation untersuchen wollen. Daraus ergibt sich, dass Sie das Merkmal Leseselbstkonzept und das Merkmal Lesemotivation erheben müssen.

Schritt 2: Recherche
Zu vielen Merkmalen existieren Fragebögen, die bereits eingesetzt wurden und zu denen Kennzahlen zur Qualitätsbestimmung vorliegen. Sie sollten also zunächst recherchieren, ob Sie auf der Arbeit von anderen aufbauen und sich damit selbst einige Mühe ersparen und besser an bereits bestehende Forschung anschließen können. Sollten Sie für Ihre Merkmale passende Fragebögen finden, rate ich Ihnen sehr, diese auch zu nutzen, besonders wenn diese schon mehrfach eingesetzt und damit getestet wurden. Auch hinsichtlich der vorliegenden Fragestellung existieren bereits Fragebögen. Für Demonstrationszwecke gehen wir im Weiteren allerdings davon aus, dass unsere Recherche erfolglos war und keine Vorarbeiten vorliegen, so dass wir einen neuen Fragebogen entwickeln müssen.

Schritt 3: Formulierung von Items
Zunächst müssen Sie sich überlegen (und dabei aktuelle Forschungsliteratur beachten), welche Indikatoren auf die Ausprägung dieser Merkmale hinweisen. Überlegen Sie sich dazu, woran eine niedrige oder hohe Ausprägung des Merkmals, welches Sie messen wollen, erkannt werden kann. Da Sie einen Fragebogen entwickeln wollen, müssen Sie sich im Weiteren auf solche Indikatoren beschränken, die über (Selbst)Auskünfte erfasst werden können. Für jedes Merkmal sollten Sie mehrere Items entwickeln. Für das Leseselbstkonzept könnten Sie beispielsweise folgende Aussage formulieren: Lesen fällt mir leicht. Für die Lesemotivation wäre eine Möglichkeit: Lesen macht mir Spaß. Zusätzlich müssen Sie sich für Antwortskalen entscheiden. Im vorliegenden Fall ist die schon vorgestellte Antwortskala von 1 (trifft überhaupt nicht zu) bis 5 (trifft voll und ganz zu) vorstellbar. Grundsätzlich sind auch andere Antwortskalen denkbar, z. B. zur Häufigkeit von 1 (nie) bis 5 (häufig).

Bei der Formulierung der Items sollten Sie Folgendes beachten: Grundsätzlich gilt, dass Sie sich bemühen sollten, die Aussagen möglichst klar, einfach und eindeutig zu formulieren. Sie sollten sich immer überlegen, ob Ihre Fragen wohl so verstanden werden, wie es von Ihnen intendiert ist. Weitere Hinweise zur Formulierung finden Sie bei Kallus (2010):

  • Ist das Sprachniveau angemessen?
    • Überprüfen Sie, ob Ihre Formulierungen für Ihre Zielgruppe verständlich sind. Fachbegriffe sollten Sie vermeiden, z. B. Ich bin intrinsisch motiviert.
  • Sind die Bezüge klar und eindeutig?
    • Ein problematisches Beispiel wäre: In meiner Schule gehöre ich zu den Besten im Lesen. Hier ist nicht eindeutig, auf wen sich der Vergleich bezieht. Es könnten sowohl ältere Schüler/-innen als auch die Lehrpersonen in den Vergleich einbezogen werden. Eine klarere Formulierung wäre: Im Vergleich mit den Mitschüler/-innen in meiner Klasse lese ich gut.
  • Entspricht jedes Item einem Aspekt?
    • Items, die mehrere Aspekte abfragen, können nicht eindeutig beantwortet werden, z. B.: Ich lese gerne Zeitung und Romane. Solche Items sollten Sie trennen und dafür zwei Items formulieren.
    • Auch Bedingungen innerhalb eines Items oder zwischen Items sollten Sie vermeiden, z. B. Wenn es Winter ist und ich ein gutes Buch zur Hand habe, lese ich manchmal den ganzen Tag.
  • Sind die Antwortkategorien passend?
    • Beispielsweise passt die Antwortskala von 1 (nie) bis 5 (häufig) nicht zu dem Item Meistens macht mir lesen Spaß.

Schritt 4: Formatierung des Fragebogens und Formulierung des Begleitschreibens
Auf die Formatierung sollten Sie einige Mühe verwenden, da eine eindeutige grafische Gestaltung die Verständlichkeit erhöht. Überprüfen Sie, ob alle Fragen gut lesbar sind und ob jeweils klar ist, welche Antworten zu welcher Frage gehören. Zusätzlich sollten Sie ein Begleitschreiben formulieren, das über die Ziele Ihrer Studie aufklärt und die Teilnehmenden motiviert, den Fragebogen auszufüllen. Hier sollte auch eine Instruktion zur Beantwortung des Fragebogens erfolgen. Das Begleitschreiben setzen Sie an den Anfang des Fragebogens. Wenn Sie minderjährige Personen befragen wollen, benötigen Sie eine Einverständniserklärung von den Eltern (s.a. Kapitel Forschung und Ethik). Der Einverständniserklärung sollten Sie ein Informationsschreiben beifügen.

Schritt 5: Erprobung des Fragebogens
Bevor Sie den Fragebogen einsetzen, sollten Sie ihn einigen Personen Ihrer Zielgruppe vorlegen, um zu überprüfen, ob alles verständlich ist. Dabei können Sie ausgefeilte Verfahren (diese finden Sie z. B. unter Stichwörtern wie kognitive Pretest) verwenden oder den Fragebogen einfach von 5-7 Personen ausfüllen lassen. Das Wichtigste ist, dass Sie sich Rückmeldung von Ihrer Zielgruppe holen. Tun Sie dies so frühzeitig, dass Sie notwendige Änderungen einarbeiten und den modifizierten Fragebogen erneut erproben können.

Nachdem mit Hilfe der kleinen Stichprobe die erste Einsatzfähigkeit sichergestellt ist, sollte der vorläufige Fragebogen an einer etwas größeren Stichprobe unter Echtbedingungen eingesetzt werden. Die dabei erhobenen Daten werden unter der Perspektive quantitativer Qualitätsindikatoren ausgewertet, um mangelhafte Items zu identifizieren. Vor dem eigentlichen Einsatz empfiehlt sich ein weiterer Probelauf mit der verbesserten Version.

Auswertung

Nachdem Sie Ihren Fragebogen eingesetzt haben, geht es an die Auswertung. Je nach Erkenntnisinteresse und Fragenform bieten sich hier verschiedene Verfahren an. Offene Fragen können Sie beispielsweise mit Hilfe der qualitativen Inhaltsanalyse auswerten, bei geschlossenen Fragen werden Sie vermutlich die deskriptiven Statistiken, Zusammenhänge oder Unterschiede interessieren. Insbesondere bei selbstentwickelten Fragebögen steht die Analyse der Qualitätseigenschaften des eigenen Fragebogens am Beginn der Auswertung.

Software

Zur Erstellung eines Papier-Fragebogens können Textbearbeitungsprogramme wie z. B. Word o.Ä. genutzt werden. Für Onlinebefragungen bieten sich Dienste wie Limesurvey (kostenfrei) oder Questback an.

Literatur

Aeppli, J. & Gasser, L. (2014). Empirisches wissenschaftliches Arbeiten. Ein Studienbuch für die Bildungswissenschaften (3. Aufl.). Bad Heilbrunn: Klinkhardt. (Kapitel 7)

Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler. Heidelberg: Springer.

Kallus, K. W. (2010). Erstellung von Fragebogen. Wien: Facultas. WUV.

Forschung und Ethik

—- Kapitel folgt in Kürze —-

Planung von Studien

Sabrina Wiescholek

Verhältnis von Theorie und Empirie

Aufgrund von systematischer Beobachtung mit Hilfe verschiedenster Erhebungs– und Auswertungsverfahren sammeln empirisch arbeitende Wissenschaftler/-innen Daten. Nach der Auswertung dieser Daten können Schlussfolgerungen gezogen werden. Genau diese Schlussfolgerungen führen zur Einwicklung von Theorien (induktives Vorgehen). So entstandene Theorien müssen jedoch weiterhin überprüft werden: Ist die Theorie überhaupt plausibel? Kann die Theorie auf andere Themengebiete übertragen werden? Hält die aufgestellte Theorie weiteren Beobachtungen stand, bewährt sie sich also? Dies alles sind Fragen, mit denen sich wiederum die empirische Wissenschaft beschäftigt. Durch Prüfung präzise formulierter Forschungsfragen bzw. der daraus abgeleiteten Hypothesen wird die Theorie verworfen, weiterentwickelt und wenn nötig verändert (deduktives Vorgehen).

 

Empirie-Theorie

Abb.: Wechselspiel von Theorie und Empirie aus: Imhof (2010), S. 18

 

Theorie und Empirie stehen in einem ständigen Wechselverhältnis zueinander. Stellen Sie sich zur Veranschaulichung dieses Wechselverhältnisses von Theorie und Empirie folgendes Beispiel vor, eine typische Situation im Klassenraum der 6a: Sie beobachten als angehender Lehrer/angehende Lehrerin während Ihres Praktikums jeden Tag, dass die Schülerinnen und Schüler in der sechsten Schulstunde besonders laut und unaufmerksam sind. Sie können sich kaum konzentrieren und Aufgaben werden meist nicht richtig zu Ende geführt. Des Weiteren beobachten Sie, dass sich die Schülerinnen und Schüler an einem Tag der Woche, am Donnerstag, anders verhalten. In der sechsten Stunde des Donnerstages ist das Verhalten der Schülerinnen und Schüler relativ unauffällig. Im Unterricht herrscht eine rege Beteiligung und die Lehrerin in der Stunde gibt den SuS nie Hausaufgaben auf, weil Sie alles innerhalb dieser sechsten Stunde bereits erledigen. Nach einem Gespräch mit der Klassenlehrerin erfahren Sie, dass die Schülerinnen und Schüler der 6a immer am Donnerstag in der fünften Stunde Sport haben. Sie entwickeln nun auf Grund Ihrer Beobachtungen die Theorie, dass die sportliche Betätigung der SuS zu einer erhöhten Konzentration führt, kurz: Sport führt zu mehr Konzentration und besserer Arbeitsleistung. Diese Theorie ist jedoch noch ziemlich wackelig, denn sie stützt sich allenfalls auf ihre vereinzelten Beobachtungen.

Zu vielen verschiedenen Themen bzw. Theorien existiert bereits Forschung und Literatur. Nicht nur aus Beobachtungen, sondern auch aus Literatur zu einem bestimmten Thema kann eine Theorie entwickelt werden. So können nicht nur durch Beobachtungen Fragestellungen entstehen, sondern auch auf Grund der Auseinandersetzung mit Literatur. Aus der Theorie werden Forschungsfragen entwickelt und Hypothesen abgeleitet, die es zu überprüfen gilt. Bestätigen sich die Hypothesen, ist die Theorie vorerst bewährt. Bestätigen sich die Hypothesen nicht, muss die Theorie entweder weiterentwickelt, verändert oder sogar vollständig verworfen werden.

Fragestellung:

Warum ist eine präzise Fragestellung so wichtig für die empirische Forschung? Die Fragestellung begleitet den/die Wissenschaftler/-in durch den gesamten Forschungsprozess. Anhand der Fragestellung entscheidet sich, welche Hypothesen zu prüfen sind, welche Erhebungs- und Auswertungsmethoden qualitativer oder quantitativer Art zur Prüfung der Hypothesen in Frage kommen und innerhalb welchem Forschungskontexts und Umfangs die Ergebnisse interpretiert werden können.

Im obigen Beispiel wird das Verhalten von SuS im Klassenraum diskutiert. Wichtig für eine empirische Studie ist eine möglichst konkrete Fragestellung. Was unterscheidet nun eine Fragestellung von einem Thema? Wann ist eine Fragestellung präzise formuliert, so dass Sie den Forschungsprozess konstruktiv leiten und begleiten kann? Am obigen Beispiel und weiteren anderen Beispielen wird im Folgenden veranschaulicht, wie sich das Thema und die Fragestellung unterscheiden, genauer gesagt, wie eine präzise Fragestellung aus einem Thema abgeleitet werden kann. Das in Kapitel 1.1 beschriebene Beispiel der Klasse 6a kann grob dem Thema „Konzentration im Unterricht“ zugeordnet werden. Hinsichtlich dieses Themas kann jedoch sehr viel Verschiedenes gefragt werden. Zum Beispiel: Wie macht sich die Konzentration von SuS bemerkbar? Was ist Konzentration? Wie kann Konzentration im Unterricht gefördert werden? All diese Fragen betreffen das Thema „Konzentration im Unterricht“, beziehen sich jedoch nicht auf die Beobachtung unseres Beispiels. Die konkrete Forschungsfrage passend zu den Beobachtungen in der 6a würde folgendermaßen lauten: „Welchen Einfluss hat der Sportunterricht auf die Konzentrationsfähigkeit von SuS der sechsten Klassen?“

Nachfolgend sollen einige Themen und passende Fragestellungen exemplarisch den Unterschied von Thema und Fragestellung veranschaulichen:

Thema Forschungsfrage
Lesemotivation von SuS
  • Wie kann Lesemotivation von SuS in der Hauptschule gefördert werden?
  • Wie lassen sich Geschlechterunterschiede in der Lesemotivation von Jugendlichen erklären?
  • Welchen Einfluss hat das Leseselbstkonzept auf die Lesemotivation von Grundschülern/Grundschülerinnen der vierten Klasse?
Unterrichtsstörungen
  • Welche theoretischen Ansätze zum Thema Unterrichtsstörungen gibt es?
  • Welchen Einfluss hat ein systematisch organisierter Unterricht auf die Häufigkeit von Unterrichtsstörungen?
Klassenklima
  • Wie kann das Klassenklima positiv beeinflusst werden?
  • Welchen Einfluss hat das Klassenklima auf das Wohlbefinden des/der einzelnen Schülers/Schülerin?
  • Weisen Klassen mit positivem Klassenklima eine bessere Schulleistung auf als Klassen mit schlechtem Klima?

Die Formulierung einer stichhaltigen Fragestellung gehört zu den allgemeinen Vorbereitungen einer empirischen Untersuchung. Es ist wichtig, dass schon bei der Formulierung der Fragestellung darauf geachtet wird, möglichst auf umgangssprachliche Formulierungen zu verzichten. Im Rahmen dieses Schrittes ist des Weiteren, wie oben schon erwähnt, zu prüfen, ob bereits Theorie zu der eigenen Fragestellung existiert. Welche Hypothesen wurden bereits geprüft? Welche Forschungsergebnisse existieren bereits?

Stellenwert von Hypothesen im Forschungsprozess

Die vermuteten Antworten auf eine Fragestellung werden als Hypothesen bezeichnet. Hypothesen können geprüft werden, wenn sie falsifizierbar, also widerlegbar sind. Ein Beispiel für eine schwer zu widerlegende Hypothese ist die Behauptung: „Es gibt blaue Bäume.“ Auf der einen Seite ist die Hypothese bestätigt, wenn ein blauer Baum gefunden werden würde. Dies kann sich allerdings als ein sehr langwieriges Vorhaben herausstellen. Auf der anderen Seite, müssten, um die Hypothese zu falsifizieren, alle auf der Erde existierenden Bäume betrachtet werden. Aber auch danach wäre es schwer festzustellen, ob nicht doch irgendwo ein blauer Baum existiert. Bei der Aussage „Es gibt blaue Bäume“ handelt es sich um eine Existenzaussage. Die Schwierigkeit bei einer solchen Aussage liegt darin, sie zu widerlegen. Dieses Beispiel veranschaulicht die Notwendigkeit, dass wissenschaftliche Hypothesen potentiell falsifizierbar, also durch systematische Beobachtungen generell überprüfbar sein müssen.

Bei Hypothesen kann zwischen Unterschieds-, Zusammenhangs- und Veränderungshypothesen unterschieden werden. Unterschiedshypothesen postulieren einen Unterschied, bspw. zwischen zwei Gruppen. (Beispiel: Ziffernzeugnisse werden von SuS besser verstanden als verbale Beurteilungen). Zusammenhangshypothesen beziehen sich auf den Zusammenhang zwischen zwei Merkmalen (Beispiel: Die Motivation der SuS hängt positiv mit den Leistungen im abschließenden Test zusammen). Veränderungshypothesen beschreiben demgegenüber Veränderungen über die Zeit (Beispiel: Die Leistungen der SuS steigen vom Anfang bis zum Ende des Schuljahres).

Variablen

Unsere Hypothesen beinhalten verschiedene Variablen. Was sind nun aber Variablen? Es wird unterschieden zwischen manifesten und latenten Variablen. Manifeste Variablen sind Aspekte bzw. Untersuchungsgegenstände, welche direkt beobachtet werden können. Zum Beispiel kann bei den Bundesjugendspielen die Schnelligkeit im 100-Meter-Lauf direkt mit Hilfe einer Stoppuhr gemessen werden. Latente Variablen sind im Gegensatz zu manifesten nicht unmittelbar beobachtbar. Beispielsweise muss zuerst operationalisiert werden, was mit „körperlicher Fitness“ gemeint ist. Es müssen demnach Aspekte gefunden werden, die auf eine körperliche Fitness schließen lassen. Dies kann zum Bespiel die Schnelligkeit im 100-Meter-Lauf sein, aber auch die Ausdauer,  die Beweglichkeit, die Muskelmasse u.v.m. Eine weitere Unterscheidung kann hinsichtlich der Funktion von Variablen getroffen werden. Variablen lassen sich in dem Fall in unabhängige (uV) und abhängige Variablen (aV) unterschieden. Diese Differenzierung drückt ihre Beziehung innerhalb einer Hypothese aus. Wir werden im Kapitel 1.6, in welchem verschiedene Untersuchungsdesigns vorgestellt werden, näher auf die Beziehung zwischen abhängigen und unabhängigen Variablen eingehen.

Eine weitere Unterscheidung hinsichtlich der Funktion von Variablen ist die Einteilung in unabhängige und abhängige Variablen. Wir werden im Kapitel über die Untersuchungsdesigns weiter darauf eingehen.

Probleme der Operationalisierung

Für die Spezifizierung Ihrer Untersuchung ist es unerlässlich, diejenigen Aspekte bzw. Variablen, welche Sie untersuchen wollen, zu definieren. Das richtige Fachwort hierfür ist „Operationalisierung“. Mit der Operationalisierung stellt sich die Frage nach dem, was überhaupt gemessen werden soll. Bei der oben gestellten Forschungsfrage nach dem Einfluss des Klassenklimas auf die Leistung der SuS ist es notwendig, mehrere Aspekte genau zu operationalisieren. Auf der einen Seite muss die Frage beantwortet werden, was unter dem Begriff Klassenklima verstanden und ab wann dieses als positiv bezeichnet werden kann. Es steht die Entscheidung aus, wie das Klassenklima in der Untersuchung erhoben werden soll? Wer, wie und was genau soll befragt werden? Auf der anderen Seite muss genau festgelegt werden, was mit Schulleistung gemeint ist. Schulleistung kann auf Grundlage von Noten, Leistungs- oder Intelligenztests ermittelt werden. Die Schulleistung eines einzelnen Schülers, aber auch der ganzen Klasse kann für die Untersuchung relevant sein. In der möglichst genauen Operationalisierung von Variablen bestimmt sich häufig die Güte einer Untersuchung.

Als Exkurs soll an dieser Stelle kurz auf die Qualität bzw. die Güte empirischer Forschung eingegangen werden, welche sich anhand verschiedener Kriterien beurteilen lässt. Es werden in der Regel drei Gütekriterien voneinander unterschieden: die Objektivität, die Reliabilität und die Validität. Die Objektivität betrifft die Unabhängigkeit der Untersuchung von dem Testleiter. Sie ist im gesamten Forschungsprozess (Durchführung, Auswertung und Interpretation der Untersuchung) relevant. Die Betrachtung von Reliabilität beschäftigt sich mit der Frage der Genauigkeit einer Messung. Eine Messung ist reliabel, wenn ein Merkmal exakt, also ohne Messfehler, gemessen wird. Wird zum Beispiel die Rechenleistung eines Schülers zu zwei verschiedenen Messzeitpunkten mit gleichen Testverfahren gemessen und wird davon ausgegangen, dass zwischen den beiden Messzeitpunkten keine Veränderung stattgefunden hat, muss ein reliabler Test dasselbe Testergebnis hervorbringen. Der Schüler müsste also zu beiden Messzeitpunkten dieselbe Rechenleistung aufweisen. Um die Reliabilität zu bestimmen, gibt es bestimmte Testverfahren, wie die Retest-Reliabilität, die Paralleltest-Reliabilität, die Interrater-Reliabilität (besonders für qualitative Forschung), die Testhalbierungs-Reliabilität oder die interne Konsistenz. An dieser Stelle soll jedoch nicht weiter darauf eingegangen werden. Die Validität beschäftigt sich im Gegensatz zur Reliabilität mit der Frage, ob tatsächlich das gemessen wird, was gemessen werden soll. Dabei kann zwischen interner und externer Validität unterschieden werden. Diese Formen von Validität nehmen einen übergeordneten Blick auf die gesamte Planung einer Untersuchung ein. Die interne Validität betrifft die Untersuchung selbst. Sind die Beobachtungen und Befunde innerhalb einer Studie tatsächlich darauf zurückzuführen, was gemessen wurde und was als ursächliche Variable angenommen wurde? Hingegen dazu geht es bei der externen Validität um die Generalisierbarkeit der Ergebnisse. Können die Ergebnisse einer Untersuchung über die Stichprobe hinweg verallgemeinert werden?

Versuchsdesigns/Versuchsplan/Versuchsanordnung

Ist eine Fragestellung konkret formuliert und sind daraus Hypothesen abgeleitet, müssen wir uns nun damit beschäftigen, wie und welche Daten passend zu unserer Fragestellung erhoben werden. Beller (2008) formuliert für diesen Schritt folgende Frage: „ Wie ist die Untersuchung zu gestalten, damit die Fragestellung überhaupt sinnvoll beantwortet werden kann?“

Je nachdem, welche Hypothesen geprüft werden sollen, bieten sich unterschiedliche Untersuchungsdesigns an. Dies hängt eng damit zusammen, um welche Art von Hypothese es sich handelt. Oben wurden drei Arten von Hypothesen vorgestellt: Unterschieds-, Zusammenhangs-, und Veränderungshypothesen.

Zum Betrachten von Zusammenhangshypothesen, also z. B. der Hypothese: „Je höher ausgeprägt das lesebezogene Selbstkonzept des Schülers/der Schülerin ist, desto höher ist auch seine/ihre Lesemotivation“, eignen sich am besten korrelative Studien. Hier werden verschiedene Variablen, in unserem Fall, das lesebezogene Selbstkonzept und die Lesemotivation betrachtet, erhoben und deren statistischer Zusammenhang berechnet. Hier gehen wir noch genauer auf die Auswertung hinsichtlich der Zusammenhangsmaße ein. An dieser Stelle sei nur schon einmal auf die Limitation von korrelativen Studien hingewiesen. Korrelationen veranschaulichen ausschließlich den statistischen Zusammenhang zwischen zwei Variablen, es kann keine Wirkrichtung, also Kausalbeziehung ausgedrückt werden. Was hier verglichen wird, sind immer mehrere unabhängige Variablen (uVs).

Einen Vorteil hinsichtlich der Aussagen zur Kausalität bietet das Experiment. Verglichen wird dabei der Einfluss von unabhängigen Variablen (aV) auf eine oder mehrere abhängige Variablen (uV). Dabei wird meist eine unabhängige Variable verändert, um den Einfluss dieser auf die abhängige Variable zu prüfen. Betrachten wir in diesem Fall die Hypothese, dass die Lesehäufigkeit die Leseleistung positiv beeinflusst. Die abhängige Variable ist hier die Leseleistung, die unabhängige die Lesehäufigkeit. Mit Hilfe eines Experimentes können wir diese Hypothese folgendermaßen prüfen: Wir wählen verschiedene sechste Klassen aus mehreren Realschulen aus. Diese Klassen erhalten in ihrem Unterricht extra Lesezeit zur Verfügung (Experimentalgruppe). Alle anderen Klassen der beteiligten Realschulen erhalten keine extra Lesezeit (Kontrollgruppe). Die Leseleistung wird nun in Kontroll- und Experimentalgruppe sowohl vor Einführung der zusätzlichen Lesezeit gemessen als auch ca. ein halbes Jahr danach. Die aufgestellte Hypothese lässt sich bestätigen, wenn die Experimentalgruppe zum zweiten Messzeitpunkt eine bessere Leseleistung aufzeigt, als die Kontrollgruppe. In einem solchen Schulsetting besteht die Möglichkeit, dass andere Variablen, wie z.B. der Deutschunterricht der Lehrkraft, die Konzentrationsfähigkeit bzw. Intelligenz der SuS als so genannte Störvariablen das Untersuchungsergebnis indirekt bedingen. In Experimenten, bei denen in einer natürlichen Umgebung etwas verändert wird, z.B. in der Schule, im Kindergarten oder in anderen Institutionen, wird somit von einem Feldexperiment oder einem quasiexperimentellen Design gesprochen.  Es sollte versucht werden, Unterschieden, welche sich auf Grund der Gruppeneinteilung ergeben, durch Randomisierung, also einer zufälligen Zuteilung der Testpersonen zu Experimental- und Kontrollgruppe, gerecht zu werden.

Das eben beschriebene Untersuchungsdesign lässt sich als Prä-, Post-, Kontrollgruppendesign bezeichnen. Es eignet sich, wie das Beispiel der Lesehäufigkeit veranschaulicht, sehr gut, um die Wirksamkeit von bestimmten Fördermaßnahmen, Unterrichtsmethoden usw. zu überprüfen.

Betrachten Wir nun Untersuchungsdesigns, die herangezogen werden, um Veränderungen zu messen. Mit Hilfe eines Querschnittsdesigns werden unterschiedliche Gruppen bzw. Kohorten zu einem bestimmten Messzeitpunkt untersucht. Kohorten können beispielsweise Jahrgänge, Altersgruppen, Berufsgruppen u.a. sein. So arbeitet z.B. die große Schulleistungsvergleichsstudie PISA mit einem Querschnittsdesign. Zum selben Messzeitpunkt wird in allen OECD-Ländern derselbe bzw. den bestimmten Ländern angepasste Schulleistungstest bei 15-jährigen SuS durchgeführt. Die Leistungsergebnisse der SuS in den einzelnen Ländern können dann miteinander verglichen werden. Was ein Querschnittsdesign nicht leisten kann, ist der Vergleich auf individueller Ebene über einen bestimmten Zeitraum hinweg. Das heißt z.B. die Veränderung individueller Schulleistung über die gesamte Schulzeit.

Soll dies das Ziel einer empirischen Studie sein, bietet sich als Untersuchungsdesign der Längsschnitt an. Hier werden über mehrere Messzeitpunkte hinweg dieselben Personen (dieselbe Stichprobe) immer wieder untersucht. Zur Veranschaulichung kann die Forschungsfrage „Wie entwickelt sich die Lesemotivation im Laufe der Schulzeit?“ herangezogen werden. Daraus kann die Hypothese abgeleitet werden, dass die Lesemotivation im Laufe der Schulzeit immer geringer wird. Folglich werden mehrere Messzeitpunkte benötigt, um diese Hypothese zu prüfen: Die erste Messung müsste zu Beginn der Schulzeit stattfinden; weiterführend könnte in der Mitte und am Ende der Grundschulzeit gemessen werden. Im Idealfall würden die an der Messung beteiligten SuS auch in der weiterführenden Schule an mehreren Erhebungen (5., 7., 10., 12. Schuljahr) teilnehmen. So kann ein Überblick über die gesamte Schullaufbahn gegeben werden. Allein für diese beim ersten Anblick sehr simpel erscheinende Forschungsfrage ergeben sich 7 Messzeitpunkte, die SuS würden über zwölf Jahre begleitet werden. Es wird deutlich, welche Schwierigkeiten mit einer Längsschnittuntersuchung verbunden sind:

  • Längsschnittuntersuchungen können mitunter sehr aufwendig bzw. zeitaufwendig sein.
  • Wenn Leistungstests in Längsschnittuntersuchungen eingesetzt werden, kann es zu einem Übungseffekt kommen: Bearbeiten SuS immer wieder in kurzen Abständen dieselben Aufgaben, merken sie sich die Lösungen.
  • Je länger der Zeitraum der Untersuchung, umso größer ist die Wahrscheinlichkeit eines Drop-Offs (Ausfall von Versuchspersonen; Selektivität). Der größte Drop-Off bei Unserem Beispiel wäre im Übergang von der Grundschule zur Weiterführenden Schule zu befürchten, da die SuS an viele verschiedene weiterführende Schulen wechseln. Aufgrund von Anonymisierung (siehe Kapitel zu Forschung und Ethik) ist schwer nachzuvollziehen, welche SuS an welche Schulen wechseln.

Wird Quer- und Längsschnittdesign kombiniert, kann von einem Kohorten-Sequenz-Design gesprochen werden. Dies ist die sowohl die zeitaufwendigste als auch die kostenintensivste Form der Untersuchungsdesigns. Es werden hier mehrere Kohorten, also z.B. Grundschüler/-innen der 3. und 4. Klasse sowie SuS der weiterführenden Schulen in der 5., 7. und 10. Klassen zu mehreren Messzeitpunkten untersucht. Eine gute Beispielstudie für das Kohorten-Sequenz-Design ist das Nationale Bildungspanel (NEPS) der Universität Bamberg.

Zum Abschluss des Kapitels soll an zwei Fragestellungen in der folgenden Tabelle der Weg von der Fragestellung über die Hypothese zum Untersuchungsdesign noch einmal veranschaulicht werden.

 

Beispiele der Untersuchungsplanung:

 Fragestellung

Lernen SuS besser mit Graphiken und Bildern oder aus Texten? Wie hängt das Bildungsniveau der Eltern mit der Leseleistung von SuS zusammen?

 Hypothese

SuS lernen mit Hilfe von Graphiken und Bildern besser als aus Texten.(Unterschiedshypothese) Je höher das Bildungsniveau der Eltern ist, umso besser können SuS lesen.(Zusammenhangshypothese)

 Variablen

Lernleistungen (aV), Texte (uV), Bilder und Graphiken (uV) Bildungsniveau der Eltern (uV), Leseleistung der SuS (uV)

Untersuchungs-

design

Prä-Post-Kontrollgruppen-Design, Feldexperiment Korrelative Studie

 

Literatur

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps. 2. überarb. Aufl. Bern: Huber.

Imhof, M. (2010). Psychologie für Lehramtsstudierende (2. Aufl.). Wiesbaden: VS Verlag für Sozialwissenschaften.

Moosbrugger, H. & Keleva, A. (2012). Testtheorie und Fragebogenkonstruktion. Berlin: Springer.

 

Lesen und exzerpieren empirischer Forschungsliteratur

Christiane Golombek

Bereits in der Planungsphase sollten Sie sich in die Ihrem Forschungsthema zugrunde liegenden Theorien und Konzepte einarbeiten. Viele davon wurden bereits in der Empirie angewandt und sollten bei der Planung des eigenen Vorgehens berücksichtigt werden. Somit ist es wichtig, sich mit themenspezifischer und aktueller Forschungsliteratur auseinander zu setzen.

Empirische Forschungstexte sind meist nach einem ähnlichen Schema aufgebaut (vgl. DGPs, 2007). Zunächst wird in einer Einleitung (Introduction) die Problemstellung skizziert und der theoretische Hintergrund sowie der gegenwärtige Forschungsstand erläutert. Danach werden häufig die Methoden (Methods) dargestellt und anschließend die Ergebnisse(Results) der Forschung präsentiert. Abschließend werden diese Ergebnisse mit Rückbezug auf Theorie und Methodik sowie auf Implikationen und Grenzen hin diskutiert (and Discussion). Dieses Schema wird auch IMRAD- Schema genannt (Sollaci & Pereira, 2004). Wenn Ihnen dieser spezielle Aufbau bei Texten bekannt ist, ermöglicht dies eine strukturierte Herangehensweise beim Lesen und erleichtert somit das Herausgreifen von wichtigen Informationen.

Die folgende Lesemethode orientiert sich an diesem Schema und zielt darauf ab, systematisches Lesen und Aufbereiten von Studien zu üben, wodurch Forschungsergebnisse gesichtet und gesichert werden können. Darüber hinaus ermöglicht sie eine kritische Auseinandersetzung. Für die Methode benötigen Sie den Forschungstext in gedruckter Form sowie Stift und Papier.

Gehen Sie folgendermaßen vor und beachten Sie, dass es sich bei den angegebenen Zeiten um einen groben Rahmen handelt, der Ihnen dabei helfen soll, sich selbst beim Lesen kennenzulernen.

  1. Überfliegen Sie den ausgewählten Forschungstext, ohne ihn mit Markierungen und Randbemerkungen zu versehen.

 Zeitrahmen: 10 – 15 Minuten.

  1. Lesen Sie den Text nun abschnittsweise erneut und fertigen Sie zu allen vier Abschnitten Notizen an. Die folgenden Fragen können Ihnen dabei als Leitfragen dienen:

Introduction: 

Welche Frage soll durch die Studie beantwortet werden?

Welche Hypothese soll getestet werden?

Warum wurde die Studie durchgeführt bzw. was war das Ziel der Studie?

Welche Theorien, Annahmen, Konzepte liegen der Studie zugrunde?

 @ Schreiben Sie die Frage/Hypothese als vollständigen Satz auf!

Method: 

Was wurde gemacht, um die Frage zu beantworten?

Welche Methoden/welches Material wurde eingesetzt?

Wer/was wurde untersucht?

Results: 

Welche zentrale Antwort/Erkenntnis wurde gefunden?

Durch welche (Teil-)Ergebnisse wird diese gestützt?

@ Schreiben Sie auch hier die zentrale Antwort/Erkenntnis als vollständigen Satz auf!

and Discussion.:

Was bedeuten die Ergebnisse/Antworten/Erkenntnisse der Studie?

Was belegen die Ergebnisse? Wo widersprechen sie anderen Theorien?

Welchen Ausblick geben die Forscher, wo sehen sie Grenzen?

Zeitrahmen: 30 – 45 Minuten.

  1. Verfassen Sie nun einen kurzen Bericht über die Studie! Legen Sie hierfür den Forschungstext beiseite und nutzen Sie lediglich die angefertigten Notizen.
  • Beginnen Sie damit, Ziele und Erkenntnisse der Studie darzustellen.

Tipp zur schnellen Einschätzung:

Passen Frage und Antwort, die Sie in Schritt 2 als vollständige Sätze notiert haben, zueinander?

  • Beschreiben Sie anschließend, wer, was, wie im Rahmen der Studie gemacht hat, um das Ziel der Studie zu erreichen.
  • Bewerten Sie, wie aussagekräftig die (Teil-)Ergebnisse sind, auf denen die Erkenntnisse/Antworten der Studie basieren.
  • Erläutern Sie, wie die Erkenntnisse vor dem Hintergrund Ihres Forschungsberichtes einzuordnen und zu bewerten sind.
  • Überlegen Sie abschließend, was Sie an der Studie kritisch sehen und welche offenen Fragen es noch gibt.

Zeitrahmen: 20 – 30 Minuten.

Sie haben nun – aus einer Vielzahl von Lesemethoden –  eine sehr strukturierte Vorgehensweise kennengelernt. Bedenken Sie jedoch, dass Lesen etwas sehr individuelles ist! Aus diesem Grund ist es sinnvoll, abschließend ein Resümee zu ziehen und sich selbst zu fragen: „Was hat es mir gebracht, den Text auf diese Weise zu lesen? Wie viel Zeit habe ich tatsächlich benötigt? An welchen Stellen brauche ich mehr Zeit zum Lesen? Welche Schritte möchte ich (auch beim Lesen anderer Texte) beibehalten?“. Durch das aktive Lesen und die anschließende Reflexion können Sie sich und Ihre Stärken beim Lesen kennenlernen und erweitern (Kruse, 2010). Weitere Lesemethoden und Tipps finden Sie beispielsweise auch bei Lange (2013).

Literatur:

DGPs (2007). Richtlinien zur Manuskriptgestaltung (3., überarb. und erw. Aufl.). Göttingen: Hogrefe.

Kruse, O. (2010). Lesen und Schreiben. Stuttgart: UTB.

Lange, U. (2013). Fachtexte lesen, verstehen, wiedergeben. Stuttgart: UTB.

Sollaci, L.B. & Pereira, M.G. (2004). The introduction, methods, results, and discussion (IMRAD) structure: a fifty-year survey. Journal of the Medical Library Association, 92 (3), 364-371.

 

Deskriptive Statistik

Carla Bohndick

Die deskriptive Statistik hilft Ihnen dabei, Ihre gesammelten Daten übersichtlich und anschaulich zusammenzufassen. Stellen Sie sich beispielsweise vor, Sie haben in Ihrer Befragung die demografischen Angaben Ihrer Versuchspersonen erhoben, vielleicht durch einen Fragebogen. Die deskriptive Statistik bietet Ihnen Kennwerte, die Ihnen dabei helfen, die Ergebnisse verdichtet darzustellen. Stellen wir uns also weiter vor, Sie haben das Alter Ihrer Versuchspersonen erhoben. Lagemaße (auch: Maße der zentralen Tendenz) geben nun an, welches Alter die Stichprobe am besten charakterisiert. Streuungsmaße (auch: Maße der Variabilität) zeigen die Unterschiedlichkeit der Stichprobe an.

Lagemaße

Die drei gebräuchlichsten Lagemaße sind das arithmetische Mittel, der Median und der Modus:

  • Modus: definiert als derjenige Messwert, der am häufigsten in der Stichprobe vorkommt.
  • Median: definiert als der Wert, der die Stichprobe in zwei Hälften teilt, wobei 50 % der Stichprobe größere (bzw. gleiche) Werte und 50% kleinere (bzw. gleiche)Werte aufweisen.
  • Arithmetisches Mittel („Durchschnitt“): definiert als Summe der Werte in der Stichprobe, geteilt durch die Anzahl dieser Werte.

Streuungsmaße

  • Range (Spannweite): Bereich vom kleinsten bis zum größten Wert, der in der Stichprobe auftritt
  • Varianz: Mittelwert der quadrierten Abweichungen aller Einzelwerte vom Mittelwert der Verteilung (große Werte sprechen für eine hohe Unterschiedlichkeit der Messwerte in der Stichprobe, kleine für ähnliche Messwerte in der Stichprobe): Formel 1
  • Standardabweichung: Wurzel der Varianz (die Interpretation der Standardabweichung ist einfacher als die der Varianz, da die Werte in der gleichen Einheit wie die der Messwerte verstanden werden können): Formel 2

Die Wahl des Lagemaßes und des Streuungsmaßes hängt vom Skalenniveau des gemessenen Merkmals, also der Variable ab:

Skalenniveaus Erklärung Beispiel Lagemaß Streuungsmaß
Nominal Keine sinnvolle Reihenfolge Geschlecht (männlich, weiblich) Modus
Ordinal Reihenfolge möglich
Kein gleicher Abstand
Schulform (Hauptschule, Realschule, Gymnasium) Modus, Median Range
Metrisch (Intervall- & Verhältnisskala) Reihenfolge möglich
Gleicher Abstand
Alter (9 Jahre, 10 Jahre, …) Modus, Median, Mittelwert Range, Varianz, Standardabweichung

Beispiel

Hier sehen Sie einen Ausschnitt aus einer Befragung zum Thema Motivation:

Nr Geschlecht Alter Schulform Mot1 Mot2 Mot3 Mot4
1 W 10 Gy 4 4 5 5
2 M 9 Real 3 4 3 4
3 M 9 Haupt 2 1 2 2
4 M 11 Real 3 2 3 3
5 W 10 Gy 4 3 3 4
6 W 10 Real 5 4 5 5
7 W 10 Gy 1 2 2 1

Zunächst müssen Sie die Skalenniveaus bestimmen:

  • Nominal: Geschlecht
  • Ordinal: Schulform
  • Metrisch: Alter, Klasse, Mot1-Mot4

Anschließend können Sie die Lagemaße errechnen (hier der jeweils höchstwertigste):

  • Geschlecht: W: 4 x vertreten; M: 3 x vorhanden; Modus: weiblich, d.h. die Mehrheit der befragten Personen ist weiblich. Weiblich ist also der Modalwert (= Modus).
  • Alter:
    Formel 3 ;
    arithmetisches Mittel, d.h. im Schnitt sind die befragten Personen 9,86 Jahre alt
  • Schulform: Zunächst wird jeder Schulform ein Wert zugeordnet, Hauptschule wird mit 1 und Gymnasium mit 3 belegt. Anschließend werden die Werte der Reihenfolge nach sortiert: 1,2,2,2,3,3,3. Der Wert in der Mitte ist der Median = 2, d.h. mindestens die Hälfte der Schüler/-innen ist mindestens auf der Realschule

Schließlich berechnen Sie (wenn möglich) die Streuungsmaße:

  • Geschlecht: –
  • Alter:
    Formel 5,
    d.h. die durchschnittliche Abweichung des Alters vom Mittelwert 9.86 beträgt 0.69 Jahre.
    Range Alter,
    d.h. die jüngste Person ist 2 Jahre jünger als die älteste
  • Schulform:
    Formel 7,
    d.h. die Person in der höchsten Schulform ist zwei Schulformen über der Person in der niedrigsten Schulform

 

Software-Empfehlungen:

Sie können deskriptive Statistiken zwar per Hand berechnen, sobald Sie aber eine größere Stichprobe haben, wird dies relativ aufwendig. Daher empfiehlt es sich zumindest Tabellenkalkulationsprogramme wie bspw. Microsoft Excel oder Open-Office zu nutzen. Hier können Sie die Formeln „programmieren“, häufig stehen Ihnen aber auch bereits passende Funktionen zur Verfügung.

Sollten Sie besonderen Spaß an Statistik haben oder gerne weitere Berechnungen durchführen wollen, gibt es dafür spezielle Programme. Weit verbreitet sind dabei das kostenpflichtige Programm SPSS oder auch die kostenlose Open Source Statistik-Software R.

 

Literatur:

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps (2., überarb. Aufl). Bern: Huber.

Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Berlin: Springer.

Grounded Theory

Julia Steinhausen & Tamara Ihln

 

„Die Grounded Theory ist eine qualitative Forschungsmethode bzw. Methodologie, die eine systematische Reihe von Verfahren benutzt, um eine induktiv abgeleitete, gegenstandsverankerte Theorie über ein Phänomen zu entwickeln“ (Strauss/Corbin 1996, S. 8).

 

Wie das Zitat eingangs zeigt, kann mit Grounded Theory Unterschiedliches gemeint sein, denn man unterscheidet hierbei zwischen der Methodologie und der Methode. Die Methodologie, im Sinne eines Forschungsstils, stellt spezielle Anforderungen an den Forschungsprozess, die im Folgenden erörtert werden. Will man die Grounded Theory als Methode der Auswertung verwenden, so bieten sich bestimmte Verfahrensweisen an, auf die ebenfalls eingegangen wird. Nach der Darstellung des Kodierprozesses, werden Ihnen einige Fragen bereitgestellt, die Ihnen dabei helfen können, den Forschungsprozess zur Theorieentwicklung zu überprüfen.

Da es sich bei der Methode der Grounded Theory um eine komplexe Methodologie und eine aufwendige Methode handelt sowie der Kodierprozess nach Strauss/Corbin einige Zeit in Anspruch nimmt, ist sie für Abschlussarbeiten, die auf wenige Monate begrenzt sind, weniger geeignet. Dennoch können der Kodierprozess nach Strauss & Corbin sowie die dahinterliegende Haltung wertvolle Anregungen bieten und stellen damit eine sinnvolle Alternative zu anderen Auswertungsmethoden dar.

Die Grounded Theory wurde in den 60er Jahren von den Soziologen Barney Glaser und Anselm Strauss entwickelt (Originalwerk: 1967, deutsche Fassung: 1998). Im Laufe der Zeit haben sich einige Weiterentwicklungen und Modifikationen dieser Methode ergeben (vgl. Mey/Mruck 2007). Die Grounded Theory als Methodologie (GTM) ist vor allem für explorative Forschungsfragen geeignet und für solche, die eine Prozess- und Handlungsorientierung beinhalten (vgl. Strauss/Corbin 1996, S.23). Ziel der GTM ist die Entwicklung einer gegenstandsverankerten[1] Theorie, womit sie zu den theoriegenerierenden Methoden zählt, bspw. im Gegensatz zur Qualitativen Inhaltsanalyse.

Die GTM gibt eine bestimmte Systematik vor, die jedoch in Bezug auf die Forschungsfrage angepasst werden kann und somit dem Forscher/der Forscherin Freiheiten und Kreativität ermöglicht (vgl. Mey/Mruck 2007). Die Anwendung der GTM gewährt Ihnen Einblicke in innere Zusammenhänge Ihres Untersuchungsbereichs sowie Wege zur Gewinnung von Hypothesen während des Forschungsprozesses, die wiederum am Material geprüft werden. Somit bleibt der Kontakt zum empirischen Material stets erhalten.

Den Ausgangspunkt stellt ein vorläufig umrissenes Forschungsziel einer undogmatisch-offenen Fragestellung dar, welche unterschiedlich stark skizziert sein kann (vgl. Strauss/Corbin 1996, S. 21ff.) und somit den Rahmen für erste Feldkontakte –unter Anwendung ausgewählter Erhebungstechniken – abdeckt.

Mit der Grounded Theory kann sowohl qualitatives als auch quantitatives Datenmaterial ausgewertet werden. Die wesentlichsten Erhebungstechniken qualitativer Daten bilden nicht-standardisierte oder teilstandardisierte Befragungen, Beobachtungen und non-reaktive Verfahren. Ebenso können Sie bereits vorhandene Dokumente verwenden, wie beispielsweise Tagebücher, Briefe, Dossiers, Texte (vgl. Dokumentenanalyse). Dabei ist es beliebig, an welchen Phänomenen des Forschungsbereichs Ihr Analyseprozess ansetzt. Jedoch sollten Sie als Forscher/-in Ihr vorhandenes theoretisches Vorwissen über Ihr Forschungsgebiet transparent machen und Theorie eher in Form von sensibilisierenden Konzepten an den Untersuchungsgegenstand anlegen, so dass Sie möglichst offen für viele neue Aspekte des Problemfelds sind und diese kombinatorisch durchspielen können.

Das Verfahren der Grounded Theory Methodologie verläuft zirkulär und besteht in einer ggf. mehrfach zu durchlaufenden analytischen Triade:

  • Theoretisches Sampling: die Erhebung neuer Daten angestoßen durch jeweilige Resultate des Theorieentwicklungsprozesses
  • die Analyse von bereits vorliegendem Datenmaterial und der Prozess des theoretischen Kodierens,
  • die systematische Entwicklung von Theoriebausteinen wie Konzepten, Kategorien und daraus konstruierten Theorien sowie der Reflexionsprozess des Verfahrens.

Zentrale und parallel ablaufende Schritte der GTM nach Strauss und Corbin (1996) sind: das Stellen von generativen Fragen an das Material (Wer? Wann? Wo? Was? Wie? Wieviel? Warum?), Herstellen von Zusammenhängen zwischen den sich entwickelnden Kategorien im Hinblick auf eine konzeptuell dichte Theorie, kontrastive Vergleiche von Phänomenen, Beachten der Relevanz des Kodierens, Anstreben einer Integration (Was ist der Kern der Theorie? Identifizierung der Schlüsselkategorie(n)), Erstellen von Theorie-Memos sowie das Nutzen des Kodierparadigmas.

Das systematische Anfertigen von Memos im Verlauf Ihres Forschungsprozesses stellt für Sie eine wertvolle Hilfe zur Theoriebildung dar. Das Schreiben der Memos ist unerlässlich, denn es zwingt Sie dazu, Ihre eigenen Ideen, Assoziationen und Hypothesen in Bezug zur Theoriebildung und den Planungsschritten der Auswertung festzuhalten und diese zu ordnen.

Sie haben Ihre Daten erhoben (vgl. Durchführung) und transkribiert (vgl. Transkription), so dass Sie nun mit der Auswertung in Form der Kodierung beginnen. Strauss und Corbin (1996) schlagen für den Kodierprozess folgende Schritte vor:

Offenes Kodieren, d.h. die Daten werden „aufgebrochen“ (durch generative W-Fragen, kontrastive Vergleiche, etc.):

  • Texte werden in Segmente (Sinnabschnitte/Analyseeinheiten) unterteilt
  • Entdeckte Phänomene werden mit theoretischen Kodes und in-vivo Kodes bezeichnet
  • Memowriting (z.B. Theoriememos: Was davon kann Element der sich entwickelnden Theorie sein?)
  • Dimensionalisieren (z.B. wie ist das Phänomen ausgeprägt? Hoch oder niedrig? Stark oder schwach?)
  • Bündelung der Kodes zu ersten übergeordneten Kategorien

Axiales Kodieren, d.h. Sie stellen Relationen zwischen den Kategorien her:

  • Verfeinerung und Differenzierung bereits vorhandener Kategorien
  • Suche nach/Systematisierung von möglichen empirischen Zusammenhängen zwischen den Kategorien, wobei ein Kodierparadigma[2] als Hilfsmittel dient (Kodierparadigma in Anlehnung an Strauss in Strübing 2008, S. 28)
  • Ergebnisse: systematisch an Empirie rekonstruierte und probeweise in einem relationalen Modell verknüpfte Kategorien, überarbeitete Kodeliste und erweiterte Memos

Selektives Kodieren, d.h. Sie ermitteln eine Kernkategorie:

  • Kernkategorie als zentrales Phänomen, um das herum alle anderen Kategorien gruppiert werden können
  • Kernkategorie ist die Antwort auf Ihre Forschungsfrage

Nach Entwicklung der Grounded Theory schlagen Strauss und Corbin (2010) einige Kriterien vor, um den Forschungsprozess zu reflektieren und zu prüfen, ob der Theoriebildungsprozess gelungen und die Theorie gegenstandsverankert ist. Sie dienen sozusagen als Gütekriterien (vgl. Strauss/Corbin 2010, S. 217f.):

  • Wie wurde das Sample ausgewählt? Wie wurde diese Auswahl begründet?
  • Welche Hauptkategorien wurden entwickelt?
  • Welche Ereignisse, Vorfälle, Handlungen usw. verwiesen (als Indikatoren) bspw. auf diese Hauptkategorien?
  • Auf der Basis welcher Kategorien fand theoretisches Sampling statt? Wie leiteten theoretische Formulierungen die Datenauswahl an? In welchem Maße erwiesen sich die Kategorien nach dem theoretischen Sampling als nutzbringend für die Studie?
  • Was waren einige der Hypothesen hinsichtlich konzeptueller Beziehungen (zwischen Kategorien) und mit welcher Begründung wurden sie formuliert und überprüft?
  • Gibt es Beispiele, dass Hypothesen gegenüber dem tatsächlich Wahrgenommenen nicht haltbar waren? Wie wurde diesen Diskrepanzen Rechnung getragen?
  • Wie und warum wurde die Kernkategorie ausgewählt? War ihre Auswahl plötzlich oder schrittweise, schwierig oder einfach? Auf welchem Boden wurden diese abschließenden analytischen Entscheidungen getroffen?

Fazit

Die GTM ist ein regelgeleitetes und systematisches Verfahren, das dennoch nach dem Prinzip der Offenheit vorgeht. Durch die Auseinandersetzung mit dem Material in Form von Assoziationen und Vergleichen werden die Forschenden in ihrer Kreativität gefördert und es entsteht eine dem Gegenstand angemessene Theorie.  Da es sich bei der Grounded Theory um eine komplexe Methodologie und eine aufwendige Methode handelt und der Kodierprozess nach Strauss/Corbin einige Zeit erfordert, ist sie für Abschlussarbeiten, die auf wenige Monate begrenzt sind, weniger geeignet. Dennoch können der Kodierprozess nach Strauss und Corbin und die dahinterliegende Haltung wertvolle Anregungen bieten und stellen damit eine sinnvolle Alternative zu anderen Auswertungsmethoden dar. Ratsam ist es, sich während des Forschungsprozesses in einer Forschungsgruppe zusammenzuschließen, um sich über den Forschungs- und Auswertungsprozess austauschen und ggf. auch gemeinsam ausschnittweise kodieren zu können.

Weiterführende Literatur: Grounded Theory-Methodologie

  • Glaser, Barney/Strauss, Anselm L.: The discovery of gounded theory. Chicago: Aldine, 1967, (Originalwerk, deutsche Übersetzung: Grounded Theory. Strategien qualitativer Forschung. Bern: Verlag Hans Huber, 1998.)
  • Mey, Günter/Mruck, Katja (Hrsg.): Grounded Theory Reader. Historische Sozialforschung Supplement 19. Köln: Zentrum für historische Sozialforschung, 2007.
  • Strauss, Anselm L./ Juliet M. Corbin: Grounded Theory: Grundlagen qualitativer Sozialforschung. Beltz, Psychologie-Verlag-Union, 1996/2010.
  • Strübing, Jörg: Grounded Theory. Zur sozialtheoretischen und epistemologischen Fundierung des Verfahrens der empirisch begründeten Theoriebildung. Wiesbaden: VS Verlag für Sozialwissenschaften, 2004.

[1] Die deutsche Übersetzung ist oft missverständlich. Mit einer „grounded“ Theory meinen Strauss und Glaser eine Theorie, die durch das Wechselspiel von Empirie und Theorieentwicklung entsteht und damit in den Daten gegründet bzw. verankert ist. Im weiteren Verlauf wird daher die englische Originalform verwendet.

[2] Das Kodierparadigma nach Strauss ist ein heuristisches Modell, das dabei hilft Kategorien im Hinblick auf ihre Beziehung untereinander zu strukturieren. So kann im Prozess überprüft werden, ob die entwickelten Kategorien und Kodes ursächliche Bedingungen, Kontextaspekte, Handlungsstrategien, intervenierende Bedingungen oder Konsequenzen in Bezug auf das untersuchte Phänomen darstellen.

Concept Maps

Tamara Ihln

Concept Maps eignen sich, wenn Sie das Wissen von Kindern und Jugendlichen schriftlich – im Unterricht und/oder der Forschung – erheben möchten.

Als Einstieg erhalten Sie eine kurze Beschreibung darüber, was diese (Forschungs-)methode ausmacht und wozu sie sich eignet, um daran anknüpfend zu erfahren, wie sie effektiv – im Unterricht und/oder der Forschung – eingesetzt werden kann. Im Anschluss daran soll Ihnen ein exemplarisches Beispiel dargelegt werden, um die Umsetzung im Unterricht und/oder in der Forschung zu veranschaulichen. Abschließend erfahren Sie, wie Sie mit den erhobenen Daten umgehen.

Concept Maps werden auch als „Begriffslandkarten“ bzw. „Begriffsstrukturdarstellungen“ bezeichnet, da sie Wissen visuell repräsentieren. Das Besondere an ihnen ist – und damit unterscheiden sie sich von einer Mind-Map – dass die jeweiligen Wissenselemente (auch Konzepte/Knoten genannt) und ihre dazugehörigen Beziehungen zueinander anhand beschrifteter Pfeile oder Linien als „Relationen“ dargestellt werden, während eine Mind-Map vorrangig als Mittel zum Brainstorming genutzt wird (vgl. Richter 2008b, 135f.). Eine Concept-Map hingegen besteht aus einzelnen Begriffen, den Pfeilen zwischen diesen sowie der Beschriftung der Pfeile durch Verben (vgl. Gläser 2012, 20; vgl. dazu auch Abb. 1).

Beispiel einer Concept-Map

Concept Map_Politische Bildung

Abb. 1: Quelle: Richter (2008a, 39)

Sie sollten vor dem Einsatz einer Concept Map ihre Funktion innerhalb des Lernprozesses festlegen, ob Sie sie zur Diagnose (d.h. Erhebung des Vorwissens sowie der Fehlkonzepte), Erarbeitung (d.h. neuer Begriffe, Phänomene etc.) oder Kontrolle (d.h. individueller Leistungen und/oder des aktuellen Lernstands) einsetzen wollen (vgl. ebd.).

Es sind drei Formen des Mappings zu unterscheiden, welche Sie im Hinblick auf eine Anwendung im Unterricht und/oder in der Forschung betrachten sollten:

Eine Expertenmap wird durch einen Experten/einer Expertin zu dem jeweiligen Thema oder Themenbereich vorstrukturiert und zeigt damit, wie die fertige Map aussehen könnte. Ebenso ist es möglich eine lückenhafte Concept Map zu konzipieren, indem einige wesentliche Relationen/Begriffe ausgelassen werden,  die von den Kindern und Jugendlichen gefüllt werden müssen. Schließlich kann man sie auch eigene Maps zu einem Thema erstellen lassen (vgl. ebd.).

Um das selbstständige Entwickeln für die Kinder und Jugendlichen zu erleichtern, sollten Sie sich zuvor überlegen, welche Strukturierungshilfen Sie innerhalb der Concept Map vorgeben. Dies könnten beispielsweise alle Begriffe sein oder die Begriffe werden schon entsprechend platziert oder die Beziehungen/Relationen zwischen den einzelnen Begriffen werden vorgegeben (vgl. ebd.).

Bei der Erstellung einer Concept Map sollten sowohl Sie als Forscher/-in bzw. Lehrer/-in als auch die Schüler/-innen bestimmte Regeln beachten:

  • eine Concept Map/Begriffslandkarte/Begriffsstrukturdarstellung beinhaltet einzelne Begriffe/Wissenselemente
  • es gibt jeweils nur eine Verbindung zwischen zwei Begriffen, welche entsprechend mit einem Pfeil gekennzeichnet wird
  • die Pfeile geben die Richtung an, wie die beiden Begriffe zueinander in Beziehung stehen
  • jeder Begriff sollte – wenn möglich – auch mit weiteren Begriffen verknüpft werden
  • jede der Verknüpfungen wird oftmals mit einem Verb/einer Relation beschrieben (vgl. dazu auch Abb. 1)

Doch: Wie können Sie nun selbst Concept Maps erstellen?

Sie können nicht nur Programme zur Erstellung von Concept Maps nutzen (siehe Hinweis unten), sondern die Schüler/-innen auch selbst mit Stift und Papier arbeiten lassen.

Concept Maps können – ebenso wie Concept Cartoons®/ Konzeptdialoge® – eingesetzt werden, um (schriftlich) kindliche Präkonzepte und/oder Fehlvorstellungen sowohl im Unterricht als auch in der Forschung zu erheben.

Abschließend haben Sie die erhobenen Präkonzepte in schriftlicher Form vorliegen, so dass Sie diese nun analysieren (siehe bspw. Qualitative Inhaltsanalyse; Dokumentarische Methode) können. Als Lehrkraft helfen Ihnen die vorliegenden Konzepte Ihrer Schüler/-rinnen, um nun im Unterricht thematisch an die jeweils unterschiedlichen (Fehl-)Vorstellungen anzuknüpfen.

Programme

  • Microsoft Word

Literatur zur (Forschungs-)Methode

  • Gläser, Eva (2012): Methoden verstehen und anwenden. Concept Mapping im Sachunterricht. In: Grundschule Sachunterricht. 55, 2012, 20-23.

exemplarische Studien aus der Sachunterrichtsdidaktik sowie beteiligter Fachdidaktiken

  • Dunker, Nina (2010): Concept Maps im naturwissenschaftlichen Sachunterricht: Didaktische Rekonstruktion am Beispiel des Lerngegenstandes Feuer. Oldenburg.
  • Möller, Kornelia (2007): Genetisches Lernen und Conceptual Change. In: Kahlert, Joachim u.a. (Hrsg.) Handbuch Didaktik des Sachunterrichts. Bad Heilbrunn: Klinkhardt Verlag, S. 258-266.
  • Richter, Dagmar (2008a): Demokratie verstehen lernen. Elf Bausteine zur politischen Bildung in der Grundschule. Bonn: Bundeszentrale für politische Bildung.
  • Richter, Dagmar (2008b): Wissen-schaf(f)t(s)-Orientierung: Concept Maps im politischen Sachunterricht. In: Hartmut/Wiesemann Jutta Giest (Hrsg.): Kind und Wissenschaft. Welches Wissenschaftsverständnis hat der Sachunterricht? (=Probleme und Perspektiven des Sachunterrichts), Bd. 18. Bad Heilbrunn: Julius Klinkhardt Verlag, S. 133-143.
  • Brinkmann, Astrid (2005): Können Concept Maps eine Hilfe beim Problemlösen sein? In: Gesellschaft für Didaktik und Mathematik (Hrsg.).

Abbildungen

Carla Bohndick

 

Wenn Sie quantitative Daten erhoben und ausgewertet haben, ist es in vielen Fällen sinnvoll, diese auch mit Hilfe von Grafiken darzustellen, beispielsweise um Verteilungen oder Unterschiede zwischen Gruppen anschaulich zu machen. Im Folgenden werden Ihnen zwei Möglichkeiten dazu vorgestellt, wobei wir uns hier auf die Darstellung univariater Verteilungen (also der Verteilung eines einzelnen Merkmals) beschränken. Sie können natürlich auch bivariate Verteilungen (also die Verteilung zweier Merkmale) grafisch darstellen, beachten Sie dafür die folgenden Hinweise und die Literaturempfehlungen.

Histogramm:

Bei einem Histogramm wird die Verteilung einer Variablen mit direkt angrenzenden Säulen dargestellt. Dabei sind auf der x-Achse die Kategorien (z.B. Punktzahl oder Alter) abgetragen. Auf der y-Achse sind entweder absolute oder relative Häufigkeiten (z.B. in Prozent) abgetragen. Die Darstellung ist flächenproportional, d.h. die Fläche der Säulen entspricht der Häufigkeit der jeweiligen Kategorien. Histogramme können Sie zur Visualisierung von Häufigkeitsverteilungen nutzen.

Beispiel:

Unten sehen Sie ein Beispiel-Histogramm, das aus den Daten diesem Beitrag gebildet wurde. Auf der x-Achse sind die Altersangaben 9, 10 und 11 abgebildet, die y-Achse gibt die absolute Häufigkeit der Altersangaben an, d.h. wie viele Personen es in der entsprechenden Altersstufe in der betrachteten Gruppe gibt. Erkennbar ist, dass zwei Personen 9 Jahre alt waren, vier Personen 10 Jahre alt und eine Person 11 Jahre alt.

Diagramm 7

Liniendiagramm

Das Liniendiagramm ist Ihnen bereits aus der Schule bekannt. Hier wird die Verteilung einer Variablen durch Punkte dargestellt, die dann durch eine Linie verbunden werden. Mit Liniendiagrammen können u.a. Verteilungen dargestellt werden. Der Vorteil zum Histogramm ist hier, dass Sie auch bisher unbekannte Zwischenwerte ablesen können, sofern dies sinnvoll möglich ist.

Beispiel:

Ein fiktives Beispiel für ein Liniendiagramm ist unten dargestellt. Sie können sich vorstellen, dass hier die Seitenzahl eines Textes gezählt wurde und der Informationsgehalt des Textes auf einer Skala von 0 (= sehr gering) bis 5 (= sehr hoch) eingestuft wurde. Das Verhältnis von Textlänge und Informationsgehalt kann in der Grafik abgelesen werden. Bei einer Textlänge von 0 Seiten war der Informationsgehalt 0, bei einer Textlänge von 10 Seiten ungefähr 2.3, bei einer Textlänge von 20 ungefähr 3. Am Anfang steigt der Informationsgehalt steil an, der Unterschied des Informationsgehalts zwischen 80 und 100 Seiten ist nur noch sehr gering.

Diagramm 8 

Box-Plot

Ein Box-Plot stellt die Verteilung einer Variablen auf andere Weise als Liniendiagramme oder Histogramme dar. Im Box-Plot werden nicht die Daten direkt oder in Häufigkeiten, sondern die schon berechneten Kennwerte (Median, Minimum, Maximum, unteres/ oberes Quantil) dargestellt.

Das Beispiel wurde wieder aus der Variable Alter des Datensatzes in diesem Beitrag gebildet:

Diagramm 9

Der dicke Balken in der Mitte stellt den Median dar. Außerdem sind das obere und untere Quartil eingezeichnet. Das untere Quartil markiert die Grenze, ab der sich mehr als 25% der Werte befinden, das obere Quartil die Grenze, ab der sich mehr als 75% der Werte befinden. Diese Grenzen werden zu einer Box verbunden, sodass sich in der Box 50 % aller Werte befinden. Die sogenannten „Whiskers“ (hier nur unterer Balken) zeigen das Minimum und das Maximum an, wenn diese nicht mehr als 1.5 des Interquartilabstands vom Median entfernt sind. Als Interquartilabstand wird der Abstand zwischen dem unteren und dem oberen Quartil bezeichnet. Kleine Kreise sind Ausreißer, die mehr als 1.5 des Interquartilabstands vom Median entfernt sind. Im Beispiel hat also das Maximum einen größeren Abstand zum Median und ist deshalb als Ausreißer und nicht als Whisker eingezeichnet.

Problemquellen

Bei der Erstellung von Grafiken (und natürlich auch bei der Interpretation) ist es wichtig, einige Aspekte zu beachten, die zu Problemen führen könnten.

  1. Beginnt die y-Achse bei 0? Wie das folgende Beispiel verdeutlicht, sollte immer der Startpunkt der y-Achse beachtet werden. In beiden Grafiken werden die gleichen Daten wiedergegeben, in der linken könnte ein großer Unterschied zwischen den Gruppen vermutet werden, wohin der (gleiche) Unterschied in der rechten Grafik vergleichsweise klein wirkt. Ehrlicher ist also die Verwendung des rechten Diagramms.
    Diagramm 10Diagramm 11
  2. Wurden bestimmte Diagrammelemente weggelassen oder hervorgehoben, z.B. die Beschriftung der Achsen? Auch hier hilft das Beispiel von oben: Stellen Sie sich vor, im linken Diagramm wären die y-Achse und die Punkte nicht beschriftet. Es könnte nicht festgestellt werden, wie groß der Unterschied ist und dadurch würde er größer als tatsächlich wirken.
  3. Sind die Abstände auf der Größenachse durchgängig gleich? Wenn ein Wechsel auf der Größenachse stattfindet (z.B. Wechsel von Sekunden zu Minuten), kann die Grafik nicht mehr auf einen Blick angemessen interpretiert werden, da sie verzerrte Werte darstellt. Das folgende Beispiel zeigt die Leistungssteigerung einer Schülerin innerhalb eines Jahres. Einige Monate sind zusammengefasst, während andere einzeln aufgeführt werden. Obwohl die Leistungssteigerung in diesem Fall zum Ende des Jahres abnimmt, sieht es so aus, als würde die Leistungssteigerung im September und Oktober gleich bleiben.

Diagramm 12

 

Software-Empfehlungen:

Tabellenkalkulationsprogramme wie bspw. Microsoft Excel oder Open-Office helfen Ihnen dabei, Grafiken zu erstellen. Auch weitere Statistik-Software wie SPSS oder auch die R bieten Funktionen zur Erstellung von Diagrammen.

https://www.youtube.com/watch?list=PLqzoL9-eJTNBDdKgJgJzaQcY6OXmsXAHU&v=cX532N_XLIs

Literatur:

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps (2., überarb. Aufl). Bern: Huber.

Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Berlin: Springer.

Krämer, W. (2009). So lügt man mit Statistik (12. Aufl.). München: Piper.

Standardisierung

Sabrina Wiescholek

 

Standardisierung im Forschungsprozess:

Ob eine Erhebung, d.h. eine Fragebogenerhebung, ein Leistungstest, eine Beobachtungsstudie oder Interviews etc. standardisiert oder nicht standardisiert durchgeführt wird, betrifft in erster Linie das hier besprochene Gütekriterium der Objektivität. Bevor im Rahmen der Standardisierung auf verschiedene Arten von Objektivität eingegangen wird, ist jedoch die Frage zu klären, was es überhaupt bedeutet, wenn etwas als „standardisiert“ bezeichnet wird. Eine Erhebung ist standardisiert, wenn sie auf eine Art und Weise geplant ist, dass in der Durchführung der Erhebung möglichst viel vorgeschrieben und festgelegt ist. Warum ist dies für die empirische Forschung so wichtig? Mit der Beantwortung dieser Frage sind wiederum Güterkriterien angesprochen, mit welchen die empirische Forschung versucht, sich von unsystematischen alltäglichen Beobachtungen abzugrenzen. Wie eben schon erwähnt, hat hinsichtlich der Standardisierung das Gütekriterium der Objektivität die meiste Relevanz. Objektivität kann unterteilt werden in Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität. Diese drei Aspekte begleiten den gesamten Forschungsprozess. Die folgende Tabelle erklärt kurz den jeweiligen Aspekt von Objektivität und veranschaulicht ihn anhand eines Beispiels.

Erklärung Beispiel
Ziel der Beachtung von Durchführungsobjektivität ist es, dass Testergebnisse nicht von der Person beeinflusst werden, welche den Test durchführt. Deswegen soll ein Test so gut wie möglich standardisiert werden. Sie wollen in mehreren Klassen gleichzeitig einen Lesetest durchführen. Fest steht, dass Sie nicht gleichzeitig in allen Klassen präsent sein können. Sie müssen also mehrere Testleiter/-innen bestimmen. Wichtig für die Durchführungsobjektivität ist nun, dass Sie allen Teilnehmer/-innen ähnliche, wenn nicht sogar gleiche Testbedingungen ermöglichen müssen. Dies betrifft zum Beispiel folgende Aspekte:

  • Die Erklärung der Testaufgaben.
  • Die Bearbeitungszeit für die einzelnen Testaufgaben.
  • Die Hilfestellung bei Fragen hinsichtlich der einzelnen Aufgaben.
  • u.v.m.
Hinsichtlich der Auswertungsobjektivität ist ebenso wie bei der Durchführung zu beachten, dass das Ergebnis der Auswertung eines Tests nicht von derjenigen Person abhängt, welche den Test auswertet. Auswertungsobjektivität kann zum einen durch sehr genaue Auswertungsregeln erzeugt und zum anderen durch die Bestimmung der Übereinstimmung von mehreren Testauswertern überprüft werden. Lesetests können in verschiedenen Varianten durchgeführt werden. Geringe Probleme hinsichtlich der Auswertungsobjektivität gibt es, wenn wir einen Lesetest im Multiple-Choice-Format (Bsp. ELFE) durchführen. In einem solchen Test kann ganz einfach die richtige Anzahl der Kreuze/Antworten gezählt werden. Problematischer wird es jedoch, wenn wir zum Beispiel bei der Untersuchung von Leseverständnis, Schülerinnen und Schüler auf die Aufgabe „Bitte fasst die wichtigsten Aspekte des Textes zusammen“ frei beantworten lassen, also ein offenes Antwortformat vorliegt. In diesem Fall müssen detaillierte Auswertungsregeln festgelegt werden. Im vorliegenden Beispiel muss für die Auswertung in jedem Fall bestimmt werden, welche Inhalte des Textes wichtig und welche unwichtig sind.
Interpretationsobjektivität ist dann erreicht, wenn verschiedene Wissenschaftler/-innen über Personen mit demselben Testergebnis dieselben Schlussfolgerungen ziehen. In standardisierten Tests hilft hier meist das Testmanual weiter, in dem durch Normtabellen der Vergleich einer Testperson mit z.B. gleichaltrigen Bezugspersonen möglich ist. Haben zwei Schüler im Lesetest dasselbe Ergebnis, also z.B. dieselbe Punktzahl erreicht, müssen wir, die Testleiter, zu denselben Schlussfolgerungen über diese Personen gelangen. Wir können hier also nicht sagen, dass der Schüler A eine gute Leistung und Schülerin B eine schlechte Leistung im Lesetest erbracht hat, obwohl beide denselben Testwert aufweisen.

Im ersten Teil dieses Kapitels wurde beschrieben, warum die Standardisierung einer Erhebung wichtig ist und welche Vorteile sie mit sich bringt. Keine oder geringe Standardisierung hat aber auch Vorteile. Zum Beispiel werden häufig nicht standardisierte oder halb standardisierte Interviews in Themenfeldern geführt, in denen es noch relativ wenig Forschung gibt. Ein eher offenes Erhebungsverfahren mit nur erzählgenerierenden Fragen bietet Raum für neue, unerwartete Informationen, also für die Erweiterung des Blickwinkels und für Flexibilität.

 

Literatur:

Beller, S. (2008). Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps. 2. überarb. Aufl. Bern: Huber.

Moosburger, H. & Kelava, A. (2012). Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien). In: H. Moosbrugger, A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Berlin: Springer