Testverfahren/Tests

Katrin Klingsieck

Für einige Ihrer Fragestellungen wird es sich anbieten, ein bestimmtes Testverfahren auszuwählen und durchzuführen. Testverfahren oder Tests stellen neben beispielsweise dem Interview und der Beobachtung eine weitere Methode dar, um systematisch Informationen zu sammeln. Auf diese Weise können sie Sie bei der Beantwortung einer Fragestellung unterstützen. Für viele dieser Fragestellungen existieren bereits Testverfahren, für andere müssen neue Testverfahren entwickelt werden. Für alle Testverfahren existieren Handbücher (auch: Manual), für manche auch Anwenderseminare. An der Universität Paderborn gibt es verschiedene Stellen, an denen unterschiedliche Testverfahren systematisch gesammelt sind. In der Forschungsstelle „Diagnostik und Förderung“ des Deutsch-Treffs finden Sie zum Beispiel eine größere Anzahl einschlägiger Tests zur Erfassung von Lese- und Rechtschreibleistungen sowie Sprachtests (z.B. BISC, LiSe-DaZ, HSP, ELFE 1-6). Eine größere Bandbreite an Tests deckt die Testothek des Fachs Psychologie (Anlaufstelle: Sekretariat des Fachs Psychologie) ab.

Was zeichnet ein Testverfahren aus?

Bei Testverfahren oder Tests handelt es sich um wissenschaftlich fundierte Routineverfahren, mit denen eines oder mehrere empirisch abgrenzbare Persönlichkeitsmerkmale (z. B. Intelligenz) erfasst bzw. gemessen werden. Das Ziel ist es, quantitative aber auch qualitative Aussagen über den relativen Grad der individuellen Merkmalsausprägung treffen zu können. Daher eignen sich Testverfahren immer dann, wenn Sie ein klar umrissenes Merkmal (z. B. Fachkompetenz) erfassen wollen und die Ausprägung einer Einzelperson oder einer Gruppe auf diesem Merkmal in Bezug zu einer Referenz (z. B. Referenzgruppe, Ausprägung in der Vergangenheit) setzen möchten.

Ein Test setzt sich aus unterschiedlichen Aufgaben oder Fragen (Items) zusammen, die die Testperson bearbeiten muss. Aus den Bewertungen der Antworten (oft auch Reaktionen) wird pro Merkmal ein Rohwert errechnet. Für die Interpretation dieses Rohwertes muss er in einen Normwert umgewandelt werden (s. Normierung). Tests unterscheiden sich darin, wie stark sie standardisiert sind. Ist ein Test vollständig standardisiert, so sind die folgenden Aspekte bei allen Testanwendungen gleich: (1) Anleitung vor und während der Testdurchführung (Instruktion); (2) Menge, Reihenfolge und Formulierung der Items; (3) Art der Antwortmöglichkeiten; (4) Auswertung (z. B. mit Hilfe von Schablonen) und (5) Interpretation. Bei teil- oder halbstandardisierten Tests kann der Durchführende, Auswertende und Interpretierende einige dieser Aspekte frei(er) gestalten. Auch einige Fragebögen (z. B. Persönlichkeitsfragebögen) fallen in die Kategorie „Tests“, wenn sie die Kriterien wie wissenschaftliche Fundierung, Standardisierung, empirische Abgrenzbarkeit und Normierung erfüllen.

Welcher Test passt zur Ihrer Fragestellung?

Die unterschiedlichen Arten von Tests lassen sich anhand dessen, was sie erfassen, kategorisieren. Meist wird die Unterscheidung in Leistungstests, psychometrische Persönlichkeitstests und Persönlichkeitsentfaltungsverfahren gewählt.

Zu den Leistungstests gehören Entwicklungstests, Intelligenztests, allgemeine Leistungstests (z. B. Konzentration, Aufmerksamkeit) und Schultests, aber auch spezielle Funktionsprüfungs- und Eignungstests. Um die Leistung im Rahmen dieser Tests messen zu können, müssen die Antworten der getesteten Personen eindeutig als richtig oder falsch klassifiziert werden. Die Leistungstests lassen sich in Speedtests (wie viele leichte und mittelschwere Aufgaben lassen sich innerhalb einer vorgegebenen Zeit lösen?) und Powertests (bis zu welchem Schwierigkeitsgrad werden die Aufgaben richtig gelöst?) unterteilen. Zu den psychometrischen Persönlichkeitstests gehören die Persönlichkeitsstrukturtests, die Einstellungstests, die Interessentests und die klinischen Tests, während die Persönlichkeitsentfaltungsverfahren die Formdeuteverfahren, verbal-thematische Verfahren sowie zeichnerische und Gestaltungsverfahren umfassen (für Beispiele s. Bühner, 2007). Im Rahmen Ihrer Fragestellungen im Praxissemester werden Sie vermutlich eher Tests aus dem Bereich der Leistungstests auswählen, zum Beispiel Tests zur Erfassung der Leseleistung, Tests zur Erfassung der Rechtschreibleistung, Tests zur Erfassung der Rechenleistung aber auch Konzentrationstests, Aufmerksamkeitstests und Gedächtnistests.

Sie können einen Test sowohl für Fragestellungen der Statusdiagnostik als auch der Prozessdiagnostik (auch Verlaufsdiagnostik) einsetzen. Geht es Ihnen zum Beispiel darum, die Rechtschreibleistung einer Klasse zu bestimmen, können Sie einen Rechtschreibtest (z. B. die Hamburger Schreibprobe; HSP) einsetzen. Wollen Sie ferner überprüfen, wie sich die Rechtschreibleistung über einen gewissen Zeitraum verändert, können Sie diesen Test noch einmal einsetzen, um durch die Differenz zwischen den beiden Testleistungen die Veränderungen über die Zeit bestimmen zu können.

Was, wenn Sie einen Test selbstständig erstellen müssen?

Bevor Sie einen Test für Ihre Fragestellung selbst konstruieren, sollten Sie gründlich recherchieren, ob bereits ein Testverfahren dafür existiert. Bei der Entwicklung eines Tests durchlaufen Sie ähnliche Schritte wie bei der Entwicklung eines Fragebogens. Besonders wichtig ist in diesem Rahmen die Überprüfung der Qualität des Tests und die Normierung des Tests. Für Letzteres stellen Sie eine ausreichend große, repräsentative Stichprobe zusammen und lassen den Test von dieser Stichprobe bearbeiten. Wenn der Test z. B. die Methodenkompetenz von Schülern der 12. Jahrgangsstufe erfassen soll, müssen Sie eine Stichprobe von Zwölftklässlern zusammenstellen, die für alle Bundesländer Deutschlands, für alle Ebenen des sozial-ökonomischen Status der Eltern, für alle Altersstufen in der zwölften Klasse, für beide Geschlechter usw. repräsentativ ist. Sie ermitteln statistische Maße wie den Mittelwert und die Standardabweichung mit dem Ziel, die späteren Testergebnisse von Einzelpersonen mit der Normstichprobe (auch Eichstichprobe) in Beziehung zu setzen. So können Sie später beispielsweise feststellen, ob die mit dem Test getestete Person über oder unter dem Durchschnitt ihrer Altersgruppe liegt. Normierte Tests erlauben somit den Vergleich der individuellen Leistung mit einer Referenzgruppe.

Wie garantieren Sie für wissenschaftliche Qualität bei der Auswahl und der Durchführung des Tests?

Sowohl bei der Auswahl des geeigneten Tests für Ihre Fragestellung als auch bei der anschließenden Durchführung des Tests sollten Sie ein besonderes Augenmerk auf die Gütekriterien legen (s.a. im Kapitel Planung). Dafür sollten Sie sich bei der Auswahl des Tests nicht nur den eigentlichen Test, d.h. die Testhefte, anschauen, sondern das Handbuch dazu besonders gründlich studieren. Dort finden Sie Hinweise auf die Objektivität, Reliabilität, Validität und Normierung des Tests. Außerdem lohnt sich ein Blick in Untersuchungen, in deren Rahmen der Test bereits angewandt wurde. Häufig werden dort, insbesondere im Teil „Diskussion“ Probleme genannt, die sich in dieser Untersuchung mit dem betreffenden Test ergaben. Dies können wichtige Hinweise für Ihre eigene Untersuchung sein.

Informationen zur Reliabilität des Tests können Sie ebenfalls im Handbuch nachlesen. Ist ein Testverfahren reliabel, wird der wahre Wert des Merkmals durch den Test genau und zuverlässig erfasst, d. h. Messfehler sind minimal. Sie werden im Handbuch wahrscheinlich unterschiedliche Kennwerte für die Reliabilität eines Tests finden, da unterschiedliche Möglichkeiten zur Feststellung der Reliabilität existieren. So kann ein Test zu zwei unterschiedlichen Zeitpunkten an ein und derselben Stichprobe durchgeführt werden. Kommen beide Testungen zu ähnlichen Ergebnissen, liegt eine hohe Stabilität des Tests (und auch des damit erfassten Merkmals) vor (Test-Retest-Reliabilität). Diese Form der Reliabilität wird in Form des statistischen Zusammenhangs (Korrelation) zwischen den beiden Testungen angegeben. Ein Test kann aber auch in zwei sich sehr ähnlichen Fassungen vorliegen. Werden diese beiden Fassungen an ein und derselben Stichprobe durchgeführt und führen beide zu ähnlichen Ergebnissen, so liegt Paralleltest-Reliabilität vor. Oft finden Sie auch die Angabe von Cronbach’s Alpha, einem statischen Kennwert, der aussagt, wie stark die Items des Tests untereinander zusammenhängen (interne Konsistenz). Cronbach’s Alpha können Sie für Ihre eigene Untersuchung ebenfalls berechnen und sollten diesen Wert auch bei der Vorstellung des Tests nennen.

Auch zur Validität des Tests werden Sie Aussagen im Testhandbuch finden. Ist ein Test valide, dann misst er das, was er messen soll (z. B. ein Intelligenztest misst auch wirklich Intelligenz und nicht ausschließlich Aufmerksamkeit). Auch hier unterscheidet man unterschiedliche Arten von Validität: Inhaltsvalidität, Konstruktvalidität und Kriteriumsvalidität. Die Inhaltsvalidität heißt auch Augenscheinvalidität, weil man überprüft, ob die Items und der Tests als Ganzes das Merkmal abbilden, welches man mit dem Test erfassen möchte. Für die Konstruktvalidität wird der Test (z. B. neu entwickelter Intelligenztest) gemeinsam mit anderen Tests, die dasselbe Merkmal erfassen sollen (z. B. bereits etablierte Verfahren zur Intelligenzmessung), durchgeführt. Ist der statistische Zusammenhang, die Korrelation, zwischen den Testergebnissen hoch, ist dies ein Hinweis auf die Konstruktvalidität des Tests (konvergente Validität). Ferner wird der Test (z. B. neu entwickelter Intelligenztest) aber auch gemeinsam mit Tests, die ein anderes Merkmal messen (z. B. Verfahren zur Messung der Leseleistung) durchgeführt. Ist der statistische Zusammenhang, die Korrelation, zwischen den Testergebnissen nicht hoch, ist dies ein weiterer Hinweis auf die Konstruktvalidität des Tests (diskriminante Validität). Für die Kriteriumsvalidität hingegen wird der Grad der Überstimmung (Korrelation) der Testwerte mit bestimmten Außenkriterien, die mit dem Test zusammenhängen sollten, bestimmt.  Der Testwert eines Tests zur Bestimmung der Leistungsmotivation in der Schule sollte zum Beispiel hoch mit der Motivation im Unterricht zusammenhängen (konkurrente Validität), aber auch hoch mit der Leistungsmotivation im Studium (prognostische Validität). Für die Konstrukt- und Kriteriumsvalidität gehen Sie also im Handbuch auf die Suche nach den Ergebnissen von Studien, in denen der Test mit anderen Verfahren eingesetzt wurde.

Zusammenfassend kann festgehalten werden, dass ein Test eine Methode der Datenerhebung ist, welche sich insbesondere durch die Strukturiertheit (z. B. klare und eindeutige Aufgabenstellung, es ist klar, welche Antwort richtig und welche falsch ist) und Normierung (dem Vergleich der individuellen Leistung mit einer Referenzgruppe) von anderen Methoden der Datenerhebung abhebt. Das Ziel eines Tests ist immer die exakte und fehlerfreie Messung des Merkmals oder der Merkmale. Jede Messung kann jedoch fehlerbehaftet sein (z. B. aufgrund von Störvariablen wie Müdigkeit). Daher müssen Sie bei der Auswahl und der Durchführung des Tests die Gütekriterien heranziehen, um die Qualität eines Tests einschätzen zu können.

 Literatur

Bühner, M. (2007). Einführung in die Test- und Fragebogenkonstruktion. (2., aktualisierte und erweiterte Aufl.). München: Pearson Studium.

Sedlmeier, P. & Renkewitz, F. (2008). Forschungsmethoden und Statistik in der Psychologie. München: Pearson Studium.