Methodik der PISA-Studien

Die Methodik der PISA-Studien ist die der PISA-Studien zugrundeliegende Vorgehensweise. PISA wird im Auftrag der OECD und unter Mitwirkung verschiedener Beratergremien von einem Unternehmenskonsortium der Testindustrie durchgeführt. In den Teilnehmerstaaten sind nationale Projektzentren beteiligt. In jedem Staat werden ca. 5000 Schüler getestet.

Der Test umfasst eine zweistündige „kognitive“ Testsitzung, gefolgt von einer knapp einstündigen Fragebogensitzung. Im kognitiven Test bearbeiten nicht alle Schüler dieselben Aufgaben; 2003 wurden dreizehn verschiedene Testhefte (sowie in manchen Ländern in Sonderschulen ein Kurzheft) eingesetzt; von insgesamt 165 verschiedenen Aufgaben hatte jeder einzelne Schüler nur ca. 50 zu bearbeiten.

Die Schülerlösungen werden von angelernten Hilfskräften codiert, digital erfasst und ans internationale Projektzentrum nach Australien zur weiteren Auswertung übermittelt. Die meisten Aufgaben werden letztlich nur als entweder „falsch“ oder „richtig“ bewertet. Je nachdem, wie viele Schüler eine Aufgabe richtig gelöst haben, wird der Aufgabe ein bestimmter „Schwierigkeitswert“ zugeordnet. Je nachdem, wie viele Aufgaben ein Schüler gelöst hat, wird dem Schüler eine bestimmte Spanne „plausibler Kompetenzwerte“ zugeordnet. Schwierigkeits- und Kompetenzwerteskala werden nachträglich so skaliert, dass die Kompetenzwerte im OECD-Staatenmittel den Mittelwert 500 und die Standardabweichung 100 haben. Um auszugleichen, dass die Testhefte unterschiedlich schwierig waren, und dass einzelne Aufgaben in einzelnen Staaten, zum Beispiel wegen Druckfehlern, nicht gewertet werden konnten, wird die gesamte Skalierung der Schwierigkeits- und Kompetenzwerte unter Zuhilfenahme eines komplexen mathematischen Modells des Schülerantwortverhaltens, der sogenannten Item-Response-Theorie berechnet.

Die Aufgabenschwierigkeitswerte erlauben ansatzweise eine didaktische Interpretation der Testergebnisse: wenn ein Schüler beispielsweise 530 Kompetenzpunkte erzielt hat, dann kann er mit 62%iger Wahrscheinlichkeit (die Zahl 62 % ist willkürlich festgelegt worden) eine Aufgabe der Schwierigkeit 530 lösen. Wenn man sich nun veröffentlichte Aufgabenbeispiele anschaut, deren Schwierigkeitswert in der Nähe von 530 liegt, anschaut, dann bekommt man einen Eindruck, was ein Kompetenzwert von 530 bedeutet. Allerdings muss man dabei bedenken, dass der Test unter erheblichem Zeitdruck stattfindet (knapp über 2 Minuten pro Aufgabe). Fast alle weiterführenden Auswertungen beruhen darauf, dass die statistische Verteilung der Schülerkompetenzwerte in den Teilnehmerstaaten oder feiner aufgeschlüsselten Populationen untersucht wird.

Vorbereitung, Durchführung und Auswertung sind in vielhundertseitigen technischen Berichten und Auswertungshandbüchern beschrieben.

Projektleitung

PISA ist eines von mehreren Projekten, mit denen sich die OECD seit den 1990er Jahren verstärkt im Bereich Bildungsmonitoring engagiert. Die Koordination und die Endredaktion der internationalen Berichte obliegen einer kleinen Arbeitsgruppe am Hauptsitz der OECD in Paris unter Leitung des Deutschen Andreas Schleicher. Politisch wird das Projekt von einem Rat aus Regierungsvertretern gesteuert; wissenschaftlich wird es von einem Expertengremium nebst Unterausschüssen begleitet; diese Experten, Didaktiker und Bildungsforscher, arbeiten insbesondere bei der Auswahl von Testaufgaben mit. Die Erstellung und Auswertung der Testaufgaben wurde ausgeschrieben und an ein Konsortium aus mehreren Unternehmen der Testindustrie vergeben. Die Federführung wurde dem Australian Council for Educational Research (ACER) übertragen – dem Institut, an dem sich Schleicher vom Physiker zum Bildungsstatistiker fortgebildet hat.

In den einzelnen Teilnehmerstaaten werden Testdurchführung, Auswertung und Ergebnisveröffentlichung von einem nationalen Projektpartner getragen. In kleinen Staaten sind das kleine Arbeitsgruppen, die oft weniger als fünf Mitglieder umfassen; in Deutschland sind einige zehn Personen mit PISA befasst, nicht zuletzt weil für die Ergänzungsstudie PISA-E ein wesentlich größerer Aufwand getrieben wird als für den deutschen Beitrag zu PISA im engeren Sinne (mit I=international).

In Deutschland wurde PISA 2000^[1] vom Max-Planck-Institut für Bildungsforschung (MPIB) unter Leitung von Jürgen Baumert in Berlin koordiniert. Für PISA 2003 und 2006^[2] lag die Projektleitung beim Leibniz-Institut für die Pädagogik der Naturwissenschaften (IPN) unter Leitung von Manfred Prenzel in Kiel. Ab 2009 wurde PISA vom Deutschen Institut für Internationale Pädagogische Forschung (DIPF) in Frankfurt am Main unter Leitung von Eckhard Klieme durchgeführt. Ab 2012 wird PISA von dem neu gegründeten Zentrum für internationale Bildungsvergleichsstudien (ZIB) unter der Leitung von Manfred Prenzel^[3] und später Kristina Reiss übernommen.^[4]
Für Liechtenstein und die Schweiz wird PISA vom eidgenössischen Statistikamt in Neuenburg koordiniert. Dort kann man auch nachlesen, dass die nationale Durchführung einer Dreijahresstudie 3 Mio. SFr Projektkosten verursacht (Personalkosten, Honorare, Reisekosten, Beiträge zur internationalen Koordination – nicht eingerechnet aber die Gehaltsanteile der Festangestellten, die einen Teil ihrer Arbeitszeit auf PISA verwenden).
In Österreich wird PISA vom Projektzentrum für vergleichende Bildungsforschung (ZVB) in Salzburg unter Leitung von Günter Haider koordiniert.
Südtirol übernimmt die Testhefte aus Salzburg und lässt sie nach dem Test dort auch codieren, bevor die Daten dann an das italienische Projektzentrum in Frascati weitergeleitet werden. Im internationalen Bericht werden die Ergebnisse Südtirols, wie die einiger anderer (kaum zufällig ausnahmslos wirtschaftlich gutgestellter nördlicher) italienischer Regionen, separat ausgewiesen, obwohl die dafür eigentlich geforderte Stichprobengröße nicht erreicht wurde.
In Luxemburg konnten die Schüler ab 2003 zwischen einem deutsch- und einem französischsprachigen Testheft wählen; die große Mehrheit ließ sich auf Deutsch testen. Die Projektleitung besteht aus einer winzigen Arbeitsgruppe im Bildungsministerium.

Vorbereitung

Der Prozess der Evaluation der Testaufgaben wurde von jedem teilnehmenden Land begleitet und beeinflusst und reichte von der Entwicklung durch das internationale PISA-Entwicklungsteam, Übersetzung in die Sprachen der Teilnehmerländer, über die Bewertung jedes Einzelitems durch Lehrplanexperten und Vortestungen in jedem Teilnehmerstaat bis hin zur Rasch-Skalierung. Der komplette Prozess der Evaluation ist im technischen Bericht nachzulesen. Die Schul- und Schülerstichproben wurden so gewählt, dass sie nach heutigem Forschungsstand bestmöglich repräsentativ für die jeweilige Landesbevölkerung stehen^[5].

Testdurchführung

An PISA 2000 nahmen 43 Staaten teil^[6]; in den offiziellen Veröffentlichungen werden jedoch nur Daten für 32 Staaten berichtet. In diesen Staaten wurden rund 180.000 Schüler getestet: zwischen 4.500 und 10.000 pro Staat. In Liechtenstein, Luxemburg und Island umfasste die Stichprobe die gesamte fünfzehnjährige Bevölkerung.

Die Schüler bearbeiten nicht alle die gleichen Aufgaben. Zur Verbesserung der Datenqualität (und um den Preis einer zusätzlichen Skalierung) umfasst eine Studie neun Aufgabenhefte (test booklets), von denen jeder Schüler nur vier bearbeitet (rotated test design). Im Anschluss an die vier dreißigminütigen Aufgabenbearbeitungen füllt jeder Schüler einen umfangreichen Fragebogen (questionnaire) vor allem zu seinem sozioökonomischen Hintergrund aus. Die Zusatzuntersuchung zum selbstregulierten Lernen erfolgte 2000 über Fragebögen. Die Untersuchung zur Problemlösung bezog 2003 auch Testaufgaben ein.

Datenerfassung und -aufbereitung

Sämtliche Antworten eines Schülers werden von speziell geschulten Kräften in Codebuchstaben oder -ziffern übersetzt und in einen Computer eingegeben. Sämtliche Datensätze werden einem Subkontraktor (dem australischen Statistikinstitut ACER) zur Skalierung übergeben. Aus den Schülerantworten (und zwar nur denen aus den OECD-Mitgliedsstaaten) wird zunächst der Schwierigkeitsgrad der einzelnen Teilaufgaben („Items“) bestimmt. Anschließend werden die skalierten Daten an die nationalen Projektgruppen zurückgegeben, die die Daten ausführlich auswerten. OECD und nationale Projektgruppen publizieren erste Ergebnisse jeweils im Folgejahr der Testdurchführung.

Nach Veröffentlichung der ersten Ergebnisse werden die Datensätze (mit Ausnahme einiger Schlüssel, in Deutschland zum Beispiel Bundesland und Schulform) auch externen Forschern zugänglich gemacht: Originale Schülerantworten und skalierte Schülerdaten können bei ACER heruntergeladen werden^[7], sind aber, wie aus dem zugehörigen Handbuch^[8] ersichtlich, nur für Spezialisten nutzbar. Eine unabhängige didaktische Interpretation ist nicht möglich, da die Schülerantworten im veröffentlichten Datensatz nur als <richtig | falsch | nicht bearbeitet> codiert und die Aufgaben nicht erhältlich sind.

Die veröffentlichten Aufgabenlösungen suggerieren, dass bei der Erfassung von Schülerantworten auf Multiple-Choice-Frage (im Gegensatz zu Aufgaben mit anderem Antwortformat) zwischen „falsch“ und „nicht bearbeitet“ nicht unterschieden wird. Das Codierungshandbuch deutet jedoch darauf hin, dass diese Information falsch ist und im internationalen Rohdatensatz sehr wohl codiert ist, ob eine Antwort gegeben wurde und wenn ja, welche. Mangels klarer Aussagen muss man jedoch vermuten, dass in der offiziellen Datenaufbereitung (siehe nächsten Abschnitt) zwischen falschen (also möglicherweise geratenen) und nicht gegebenen Antworten nicht unterschieden wurde – im Gegensatz zu anderen standardisierten Tests (z. B. SAT), wo falsche MC-Antworten mit Punktabzug sanktioniert werden.

Aufgaben

Mit Hilfe des Urheberrechts schafft es das PISA-Konsortium, die weltweit gestellten Aufgaben geheim zu halten. Die Geheimhaltung ist nötig, um einzelne Aufgaben in Folgestudien wiederverwenden zu können, was wiederum nötig ist, um die Schwierigkeitsskalen aufeinander zu beziehen.

Veröffentlicht wurden nur einige Beispielaufgaben, und zwar in allen Sprachen die gleichen. Zum Teil stammen die freigegebenen Aufgaben aus Voruntersuchungen, die wegen bestimmter Mängel nicht im Hauptdurchgang verwendet wurden; eine Aufgabe („Antarktis“) hat sich 2000 erst im Hauptdurchgang als mangelhaft erwiesen.

Auswertung

Die Auswertung der PISA-Studie beruht auf mathematischen Modellen, die es erlauben, Aufgabenschwierigkeiten und Schülerkompetenzen auf ein und derselben Leistungsskala zu beschreiben (Rasch-Modell; siehe auch Rost, J. (2004). Testtheorie. Bern: Huber.). Diese Skala wurde willkürlich so gewählt, dass die Schülerkompetenzen der gesamten OECD-Stichprobe (ohne Partnerländer) den Mittelwert 500 und die Standardabweichung 100 haben. Das heißt: Schüler mit der Leistungsfähigkeit 400, 500, 600 sind leistungsfähiger als 15,9 %, 50 % oder 84,1 % aller OECD-Schüler. Durch die erstmalige Einbeziehung der Türkei mit ihren niedrigen Werten in die Berechnung des OECD-Mittelwertes im Jahre 2003 hat sich der Wert aller anderen Länder gegenüber 2000 um 3 Punkte verbessert, ohne dass in diesen Ländern irgendetwas Inhaltliches zu dieser Verbesserung beigetragen worden ist. Würde man die Länder entsprechend ihren Schülerzahlen im getesteten Jahrgang bei der Mittelwertsbildung gewichten, ließen sich weitere derartige „Verbesserungen“ erreichen.

Eine ähnliche Skalenkonstruktion ist von IQ-Tests bekannt, deren Mittelwert 100 und deren Standardabweichung zumeist 15 ist, der Umrechnungsfaktor demnach 100 zu 15 = 6,67 für die Abweichungen vom PISA-Mittelwert 500. Nach Meinung der Bildungsforscher haben die Aufgaben aus den PISA-Tests allerdings nichts mit IQ-Tests zu tun, und sie sträuben sich deshalb gegen eine Umrechnung in IQ-Werte (Kritik).

Die Leistungsskala der PISA-Studien ist so konstruiert, dass die Schülerfähigkeiten normalverteilt sind mit Mittelwert 500 und Standardabweichung 100. Eine solche Normierung (mit Mittelwert 100 und Standardabweichung von zumeist 15) ist seit langem in IQ-Tests üblich.

Tatsächlich verwendet PISA nicht eine, sondern drei Leistungsskalen, für die drei Kompetenzfelder Lesen, Mathematik, Naturwissenschaften. Für dasjenige Kompetenzfeld, das in einem Durchgang vertieft untersucht wird, werden überdies Subskalen gebildet. In PISA 2000 wurde die Lesekompetenz aufgegliedert in „Informationen ermitteln“, „textbezogen Interpretieren“ und „Reflektieren und Bewerten“; in PISA 2003 gibt es für den Schwerpunkt Mathematik vier Subskalen: „Raum und Form“, „Veränderung und Beziehung“, „Quantität“ und „Unsicherheit“.

Alle Kompetenzen und Subkompetenzen sind jedoch hoch miteinander korreliert, und es lässt sich aus ihnen leicht ein Mittelwert bilden. Eine zusammenfassende Bewertung auf einer Skala findet sich zwar in keiner der offiziellen Publikationen; sie wurde jedoch von einigen Presseorganen hergestellt, um PISA noch plakativer als einen quasi olympischen Ländervergleich darstellen zu können.

Es wird postuliert, dass Aufgabenschwierigkeit und Schülerkompetenz die Lösungswahrscheinlichkeit festlegen. Eine Aufgabe i hat zum Beispiel die Schwierigkeit ξ_i=550, wenn ein Schüler ν mit der Leistungsfähigkeit σ_ν=550 diese Aufgabe mit „hinreichender Sicherheit“ lösen kann. In willkürlicher Weise wird definiert, dass „hinreichende Sicherheit“ eine Lösungswahrscheinlichkeit von 62 % bedeutet.

Im Rahmen der Auswertung müssen aus den Schülerdatensätzen sowohl die Aufgabenschwierigkeiten als auch die Schülerkompetenzen ermittelt werden. Diese Auswertung ist von Modellannahmen (Item Response Theory) abhängig, überaus kompliziert und schlecht dokumentiert. Die offizielle Beschreibung im technischen Bericht (S. 99ff.) ist sehr allgemein gehalten. Es werden keine konkreten Zahlenwerte für die Modellparameter angegeben; es ist nicht einmal möglich, die Dimension wichtiger Vektoren zu erschließen. Folgendes lässt sich einigermaßen zuverlässig herauslesen:^[9]

Es werden je 500 Schüler aus 27 OECD-Ländern ausgelost. Es wird angenommen, dass die latenten Fähigkeiten (für PISA 2000 also die Leistungsmaße für Mathematik, Naturwissenschaft und dreimal Lesen) unter den 13.500 Schülern der Stichprobe multivariat normalverteilt sind. Unter dieser Annahme kann man die Koeffizienten eines Item Response Modells berechnen, das beschreibt, wie schwer einem Probanden mit bestimmtem Fähigkeitsprofil eine bestimmte Teilaufgabe fällt.

Das Fähigkeitsprofil des Schülers ν ist ein Vektor σ_ν, dessen fünf Komponenten gerade die Teilkompetenzen in Mathematik, Naturwissenschaft und dreimal Lesen sind. Die Aufgabenschwierigkeit ξ_i wird in diesem Teil des technischen Berichts als ein Vektor (mit unbekannter Dimension p), überall sonst aber als ein Skalar beschrieben.

Man weiß nun, mit welcher Wahrscheinlichkeit ein bestimmter Fähigkeitsvektor ein bestimmtes Antwortverhalten zur Folge hat. Die Aufgabe lautet aber umgekehrt, aus dem tatsächlichen Antwortmuster auf die Fähigkeiten zurückschließen. Das geht nicht in eindeutiger Weise. In den skalierten Schülerdatensätzen werden zwei Wege beschritten, um in approximativer Weise Schülerfähigkeiten mitzuteilen: (1) Es werden die wahrscheinlichsten Fähigkeitswerte (Maximum Likelihood Estimates) angegeben. Diese Werte sind jedoch nicht geeignet, um größere Populationen zu charakterisieren. (2) Es werden sogenannte plausible values angegeben: für jeden der 180.000 Probanden werden mit Hilfe von Zufallszahlen fünf beispielhafte Fähigkeitsvektoren ausgelost, wobei die Auslosung so gesteuert wird, dass bei Mittelung über eine hinreichend große Population die gemessenen Antwortmuster reproduziert werden. Alle weiterführenden Analysen, die auf diesem Datensatz aufbauen, zieht man sinnvollerweise fünfmal mit je einer Instanz des Fähigkeitsvektors pro Schüler durch; durch Vergleich der fünf numerischen Endergebnisse kann man am Ende beurteilen, welche Unsicherheit durch die Verwendung von Zufallszahlen verursacht wird.

Zur Charakterisierung bestimmter Teilpopulationen, zum Beispiel nach Land, nach Geschlecht oder nach sozioökonomischen Kriterien, bildet man einfach Mittelwerte über die „plausible value“-Fähigkeitswerte der einzelnen Schüler.

Offizielle Interpretation: Kompetenzstufen

Die offiziellen Veröffentlichungen legen großen Wert darauf, die quantitativen Ergebnisse mit Hilfe sogenannter Kompetenzstufen qualitativ zu interpretieren. Das ist notwendig, weil die Punktwerte uns noch nichts Inhaltliches erzählen. Wir wissen ja zum Beispiel nicht, wie viele (und welche) Aufgaben mehr ein finnischer Schüler im Vergleich zum deutschen Schüler gelöst hat. Diese Kompetenzstufen beruhen auf A-priori-Charakterisierungen der Aufgaben und auf Verarbeitung gemessenen Lösungshäufigkeiten. In der Mathematikdidaktik ist mittlerweile ein heftiger Streit darüber entbrannt, ob so eine Konstruktion überhaupt möglich ist. Die Argumentationslinie ist dabei die, dass die unterschiedlichen Lösungswege der Aufgaben es unmöglich machen, einer Aufgabe eine inhaltliche Schwierigkeit eindeutig zuzuweisen. Die Kompetenzstufen seien damit inhaltlich nicht konstruierbar (vergleiche z. B. Journal für Mathematik-Didaktik, Heft 3/4 – 2004, 1 – 2005, 3/4-2005).

Einzelnachweise

↑ PISA 2000
↑ PISA 2003 und 2006 (Memento des Originals vom 17. Juni 2007 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ Pressemitteilung 182/2010 des BMBF vom 14. Oktober 2010 (Memento des Originals vom 26. Oktober 2010 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.bmbf.de
↑ Zentrum für internationale Bildungsvergleichsstudien (ZIB). Kultusministerkonferenz, 17. Januar 2017, abgerufen am 12. November 2017.
↑ (ebenfalls Technischer Bericht)
↑ [1]
↑ Archivierte Kopie (Memento des Originals vom 13. Juni 2007 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ [2]
↑ PISA 2000 Technical Report. OECD, archiviert vom Original am 15. Juli 2009; abgerufen am 9. September 2019 (englisch).

[1] PISA 2000

[2] PISA 2003 und 2006 (Memento des Originals vom 17. Juni 2007 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[3] Pressemitteilung 182/2010 des BMBF vom 14. Oktober 2010 (Memento des Originals vom 26. Oktober 2010 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.bmbf.de

[4] Zentrum für internationale Bildungsvergleichsstudien (ZIB). Kultusministerkonferenz, 17. Januar 2017, abgerufen am 12. November 2017.

[5] (ebenfalls Technischer Bericht)

[6] [1]

[7] Archivierte Kopie (Memento des Originals vom 13. Juni 2007 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[8] [2]

[9] PISA 2000 Technical Report. OECD, archiviert vom Original am 15. Juli 2009; abgerufen am 9. September 2019 (englisch).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]