Viele Menschen haben sehr starke Ansichten über die Rolle von standardisierten Tests im Bildungswesen. Einige glauben, dass sie eine unvoreingenommene Möglichkeit bieten, die kognitiven Fähigkeiten einer Person sowie die Qualität einer Schule oder eines Bezirks zu bestimmen. Andere sind der Meinung, dass die Ergebnisse standardisierter Tests willkürlich sind, nicht den Wissensstand der Schüler widerspiegeln und irreführend sind, wenn sie für Rechenschaftszwecke verwendet werden. Viele Schulpsychologen und Testexperten haben eine differenzierte Sichtweise und unterscheiden zwischen den Informationen, die standardisierte Tests über die Leistungen der Schüler liefern können, und der Art und Weise, wie die Testergebnisse interpretiert und verwendet werden. In dieser differenzierten Sichtweise ergeben sich viele der Probleme im Zusammenhang mit standardisierten Tests aus ihrer Verwendung mit hohem Einsatz, wie z. B. die Verwendung der Leistung in einem Test, um die Auswahl für ein Programm, einen Abschluss oder eine Zulassung zu bestimmen, oder die Beurteilung einer Schule als leistungsstark oder leistungsschwach.
Sind standardisierte Tests voreingenommen?
In einer multikulturellen Gesellschaft lautet eine entscheidende Frage: Sind standardisierte Tests voreingenommen gegenüber bestimmten sozialen Klassen, Rassen oder ethnischen Gruppen? Diese Frage ist viel komplizierter, als sie scheint, denn Voreingenommenheit hat eine Vielzahl von Bedeutungen. Eine alltägliche Bedeutung von Voreingenommenheit bezieht sich oft auf die Fairness der Verwendung von standardisierten Testergebnissen zur Vorhersage der potenziellen Leistung von benachteiligten Schülern, die bisher nur über geringe Bildungsressourcen verfügten. Sollte beispielsweise Dwayne, einem Schüler, der hart gearbeitet hat, aber aufgrund der schlechten Schulen in seiner Nachbarschaft und der geringen Bildungsressourcen in seinem Elternhaus nur begrenzte Bildungschancen hatte, der Abschluss der High School aufgrund seines Ergebnisses in einem Test verweigert werden? Es war nicht seine Schuld, dass er nicht über die nötigen Bildungsressourcen verfügte, und wenn er eine Chance bekäme, sein Umfeld zu verändern (z. B. indem er auf ein College geht), könnten seine Leistungen aufblühen. Nach dieser Auffassung spiegeln Testergebnisse gesellschaftliche Ungleichheiten wider und können Schüler, die weniger privilegiert sind, bestrafen, und sie werden oft fälschlicherweise als Ausdruck einer festen, vererbten Fähigkeit interpretiert. Forscher betrachten die Voreingenommenheit in der Regel auf technischere Art und Weise, und es werden drei Themen erörtert: Inhalt und Format der Aufgaben, Genauigkeit der Vorhersagen und stereotype Bedrohung.
Inhalt und Format der Aufgaben. Testaufgaben können für einige Gruppen schwieriger sein als für andere. Ein Beispiel für die Voreingenommenheit der sozialen Klasse in einem Multiple-Choice-Item fragte die Schüler nach der Bedeutung des Begriffs „Feld“. Die Schüler sollten den kursiv gedruckten ersten Satz lesen und dann die Antwort auswählen, die die gleiche Bedeutung von Feld hatte (Popham 2004, S. 24):
- Das Feld meines Vaters ist die Computergrafik.
- Der Pitcher konnte seine Position fangen
- Wir bereiteten das Feld vor, indem wir es pflügten
- Der Arzt untersuchte mein Blickfeld
- Welches Feld werden Sie nach dem College betreten?
Kinder von Fachleuten werden diese Bedeutung von Feld eher verstehen, da Ärzte, Journalisten und Anwälte „Felder“ haben, während Kassiererinnen und Wartungsarbeiterinnen einen Beruf haben, so dass ihre Kinder diese Bedeutung von Feld eher nicht kennen. (Die richtige Antwort ist 4).
Die Testunternehmen versuchen, diese Art von inhaltlichen Problemen zu minimieren, indem sie Testentwickler mit unterschiedlichem Hintergrund die Aufgaben überprüfen lassen und statistisch untersuchen, ob bestimmte Gruppen einige Aufgaben leichter oder schwerer finden. Dennoch gibt es Probleme, und eine kürzlich durchgeführte Analyse der verbalen SAT-Tests ergab, dass Weiße bei leichten Aufgaben besser abschneiden, während Afroamerikaner, Hispanoamerikaner und asiatische Amerikaner bei schweren Aufgaben besser abschneiden (Freedle, 2002). Obwohl diese Unterschiede nicht groß sind, können sie die Testergebnisse beeinflussen. Die Forscher gehen davon aus, dass die leichten Aufgaben, die Wörter enthalten, die in der täglichen Konversation verwendet werden, in den verschiedenen Subkulturen subtil unterschiedliche Bedeutungen haben können, während die schweren Wörter (z. B. Vehemenz, Kriecher) nicht in jeder Konversation verwendet werden und daher nicht diese Bedeutungsunterschiede aufweisen. Auch das Testformat kann die Testleistung beeinflussen. Frauen schneiden in der Regel bei Aufsatzfragen besser ab, und als der SAT vor kurzem eine Aufsatzkomponente hinzufügte, verbesserten sich die SAT-Gesamtergebnisse der Frauen im Vergleich zu denen der Männer (Hoover, 2006).
Genauigkeit von Vorhersagen
Standardisierte Tests werden neben anderen Kriterien verwendet, um zu bestimmen, wer zu ausgewählten Colleges zugelassen wird. Diese Praxis wird mit der prädiktiven Validität begründet, d. h., dass die Ergebnisse des ACT oder SAT zur Vorhersage der College-Noten im ersten Jahr herangezogen werden. Neuere Studien haben gezeigt, dass die Vorhersagen für schwarze und lateinamerikanische Schüler weniger genau sind als für weiße Schüler und dass die Vorhersagen für weibliche Schüler weniger genau sind als für männliche Schüler (Young, 2004). Überraschenderweise neigen die Testergebnisse jedoch dazu, den Erfolg schwarzer und lateinamerikanischer Studenten im College leicht zu überbewerten, d. h. diese Studenten erreichen wahrscheinlich einen niedrigeren Notendurchschnitt im ersten Studienjahr, als durch ihre Testergebnisse vorhergesagt. Im Gegensatz dazu liegt die Vorhersage des Studienerfolgs für weibliche Studierende leicht unter der Vorhersage, d. h. diese Studierenden erreichen wahrscheinlich einen höheren Notendurchschnitt im ersten Studienjahr als durch ihre Testergebnisse vorhergesagt. Die Forscher sind sich nicht sicher, warum es Unterschiede in der Genauigkeit der Vorhersage von Studienanfängern durch den SAT- und den ACT-Test gibt.
Stereotypische Bedrohung
Gruppen, die in einem bestimmten Bereich negativ stereotypisiert sind, wie z. B. die Leistungen von Frauen in Mathematik, sind von stereotyper Bedrohung bedroht, d. h. von der Befürchtung, dass andere sie durch die negative oder stereotype Linse sehen werden (Aronson & Steele, 2005). Studien haben gezeigt, dass die Testleistung stereotyper Gruppen (z. B. Afroamerikaner, Latinos, Frauen) abnimmt, wenn die Testteilnehmer darauf hingewiesen werden, dass (a) der Test mit hohen Anforderungen verbunden ist, Intelligenz oder Mathematik misst und (b) sie an ihre ethnische Zugehörigkeit, ihre Rasse oder ihr Geschlecht erinnert werden (z. B. indem sie vor dem Test gebeten werden, einen kurzen demografischen Fragebogen auszufüllen). Selbst wenn sich die Personen für kompetent halten, kann die Bedrohung durch Stereotype die Kapazität des Arbeitsgedächtnisses verringern, weil die Personen versuchen, die negativen Stereotype zu unterdrücken. Die Bedrohung durch Stereotype scheint bei Personen, die gute Leistungen erbringen wollen, besonders stark zu sein. Standardisierte Testergebnisse von Personen aus stereotypen Gruppen können ihre tatsächliche Kompetenz in Testsituationen mit geringen Anforderungen deutlich unterschätzen.
Unterrichten Lehrer nach den Tests?
Es gibt Hinweise darauf, dass Schulen und Lehrer den Lehrplan so anpassen, dass er die Inhalte der Tests widerspiegelt und die Schüler auf das Format und die Art der Aufgaben im Test vorbereitet. Mehrere Umfragen unter Grundschullehrern ergaben, dass 2004 mehr Zeit auf Mathematik und Lesen und weniger auf Sozialkunde und Naturwissenschaften verwendet wurde als 1990 (Jerald, 2006). Schulleiter von Schulen mit einem hohen Anteil an Minderheiten in vier Bundesstaaten berichteten 2003, dass sie weniger Zeit für den musischen Bereich aufwenden. Neuere Forschungen in der Kognitionswissenschaft legen nahe, dass das Leseverständnis in einem Fach (z. B. Naturwissenschaften oder Sozialkunde) voraussetzt, dass die Schüler einen großen Teil des Vokabulars und Hintergrundwissens in diesem Fach verstehen (Recht & Leslie, 1988). Das bedeutet, dass selbst wenn die Schüler gute Lesefähigkeiten erwerben, sie das Lernen in Naturwissenschaften und Sozialkunde als schwierig empfinden werden, wenn wenig Zeit auf diese Fächer verwendet wurde.
Das Ablegen eines Tests mit einem ungewohnten Format kann schwierig sein, daher helfen die Lehrer den Schülern bei der Vorbereitung auf bestimmte Testformate und Aufgaben (z. B. doppelte Verneinung bei Multiple-Choice-Aufgaben; konstruierte Antworten). Zu Beginn dieses Kapitels haben Erin, eine Lehrerin der Mittelstufe, und Dr. Mucci, der Schulleiter, den Schwerpunkt der Testvorbereitung an ihren Schulen beschrieben. Es wird zunehmend befürchtet, dass der Umfang der Testvorbereitung in den Schulen übertrieben ist und die Schüler nicht ausgebildet, sondern für die Durchführung von Tests trainiert werden (Popham, 2004).
Schummeln Schüler und Lehrkräfte?
Es ist schwierig, gute Daten darüber zu erhalten, wie weit verbreitet das Schummeln ist, aber wir wissen, dass Schüler, die an Tests teilnehmen, schummeln und dass andere, einschließlich Testadministratoren, ihnen dabei helfen (Cizek, 2003; Popham 2006). Zu den Maßnahmen zur Verhinderung von Betrug durch Schüler gehören der Schutz der Sicherheit von Tests, die Sicherstellung, dass die Schüler die Verwaltungsverfahren verstehen, das Verhindern, dass Schüler ihre Notizen oder nicht zugelassene elektronische Geräte mitbringen und sich die Antworten der anderen ansehen. Einige Lehrer und Schulleiter wurden dabei erwischt, wie sie unethische Praktiken bei der Prüfungsvorbereitung angewandt haben, z. B. indem sie den Schülern kurz vor der Prüfung tatsächliche Prüfungsaufgaben gaben, den Schülern mehr Zeit als erlaubt gaben, Fragen der Schüler zu den Prüfungsaufgaben beantworteten und die Antworten der Schüler tatsächlich änderten (Popham, 2006). Die Besorgnis über Betrug in Texas führte im August 2006 zur Einrichtung einer unabhängigen Arbeitsgruppe mit 15 Mitarbeitern der texanischen Bildungsbehörde, die mit der Untersuchung von Unregelmäßigkeiten bei Tests beauftragt wurde. (Jacobson, 2006). Während der Druck auf Schulen und Lehrer, gute Leistungen zu erzielen, groß ist, sind diese Praktiken eindeutig unethisch und haben dazu geführt, dass Schulpersonal entlassen wurde (Cizek, 2003).
Aronson, J., & Steele, C. M. (2005). Stereotype und die Fragilität von akademischer Kompetenz, Motivation und Selbstkonzept. In A. J. Elliott & C. S. Dweck (Eds.). Handbook of competence and motivation. (pp.436-456) Guilford Publications, New York.
Cizek, G. J. (2003). Erkennen und Verhindern von Täuschungen im Unterricht: Promoting integrity in assessment. Corwin Press, Thousand Oaks, CA.
Freedle, R. O. (2003). Correcting the SAT’s ethnic and social-class bias: A method for reestimating SAT scores. Harvard Educational Review, 73(1), 1-42.
Hoover, E. (2006, October 21). SAT scores see largest dip in 31 years. Chronicle of Higher Education, 53(10), A1.
Jacobson, L. (2006). Probing Test irregularities: Texas leitet Untersuchung wegen Betrugs bei Prüfungen ein. Education Week, 28(1), 28
Jerald, C. D (2006,August).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement. Abgerufen am 21. November 2006 von www.centerforcsri.org/
Popham, W. J. (2004). Amerikas „scheiternde“ Schulen. How parents and teachers can copy with No Child Left Behind. New York: Routledge Falmer.
Popham, W. J. (2006). Educator cheating on No Child Left Behind Tests. Educational Week, 25(32) 32-33.
Recht, D. R. & Leslie, L. (1988). Auswirkungen von Vorwissen auf das Textgedächtnis von guten und schlechten Lesern. Journal of Educational Psychology 80, 16-20.
Young, J. W. (2004). Differential validity and prediction: Race and sex differences in college admissions testing. In R. Zwick (Ed). Rethinking the SAT: The future of standardized testing in university admissions. New York (pp. 289-301). Routledge Falmer.