Velen hebben zeer uitgesproken meningen over de rol van gestandaardiseerde toetsen in het onderwijs. Sommigen geloven dat ze een onbevooroordeelde manier zijn om de cognitieve vaardigheden van een individu en de kwaliteit van een school of district te bepalen. Anderen zijn van mening dat de scores van gestandaardiseerde toetsen grillig zijn, niet weergeven wat leerlingen weten, en misleidend zijn wanneer ze gebruikt worden voor het afleggen van verantwoording. Veel onderwijspsychologen en toetsdeskundigen hebben een genuanceerd standpunt en maken onderscheid tussen de informatie die gestandaardiseerde toetsen kunnen verschaffen over de prestaties van leerlingen en de manier waarop de toetsresultaten worden geïnterpreteerd en gebruikt. In deze genuanceerde visie komen veel van de problemen die geassocieerd worden met gestandaardiseerde tests voort uit het gebruik ervan, zoals het gebruik van de prestaties op één test om de selectie voor een programma, het afstuderen of het behalen van een diploma te bepalen, of het beoordelen van een school als goed of slecht presterend.
Zijn gestandaardiseerde tests bevooroordeeld?
In een multiculturele samenleving is een cruciale vraag: Zijn gestandaardiseerde tests bevooroordeeld tegen bepaalde sociale klassen, rassen of etnische groepen? Deze vraag is veel gecompliceerder dan hij lijkt, omdat vooringenomenheid verschillende betekenissen heeft. Een alledaagse betekenis van vooringenomenheid heeft vaak betrekking op de billijkheid van het gebruik van gestandaardiseerde testresultaten om de potentiële prestaties te voorspellen van kansarme leerlingen die vroeger weinig onderwijsmiddelen hebben gehad. Moet bijvoorbeeld Dwayne, een middelbare scholier die hard werkte maar beperkte onderwijsmogelijkheden had vanwege de slechte scholen in zijn buurt en weinig onderwijsmiddelen bij hem thuis, zijn diploma van de middelbare school worden geweigerd vanwege zijn score op één test? Het was niet zijn schuld dat hij niet over de onderwijsmiddelen beschikte en als hij een kans krijgt met een verandering van zijn omgeving (bv. door naar de universiteit te gaan) kunnen zijn prestaties opbloeien. In deze opvatting weerspiegelen testscores maatschappelijke ongelijkheden en kunnen ze leerlingen die minder bevoorrecht zijn straffen, en worden ze vaak ten onrechte geïnterpreteerd als een weerspiegeling van een vast erfelijk vermogen. Onderzoekers bekijken bias meestal op meer technische manieren en drie kwesties zullen worden besproken: iteminhoud en -opmaak; nauwkeurigheid van voorspellingen, en stereotype bedreiging.
Iteminhoud en -opmaak. Testonderdelen kunnen voor sommige groepen moeilijker zijn dan voor andere. Een voorbeeld van sociale klassevooringenomenheid in een meerkeuze-item vroeg studenten naar de betekenis van de term veld. De leerlingen werd gevraagd de eerste cursief gedrukte zin te lezen en vervolgens het antwoord te kiezen dat dezelfde betekenis had als field (Popham 2004, p. 24):
- Mijn vaders vakgebied is computer graphics.
- De werper kon zijn positie in het veld innemen
- We hebben het veld voorbereid door het te ploegen
- De dokter heeft mijn gezichtsveld onderzocht
- Welk vakgebied ga je in na je studie?
Kinderen van vakmensen zullen deze betekenis van veld eerder begrijpen, aangezien artsen, journalisten en advocaten “velden” hebben, terwijl caissières en onderhoudsmedewerkers een baan hebben, zodat hun kinderen deze betekenis van veld minder snel zullen kennen. (Het juiste antwoord is 4).
Testbedrijven proberen dit soort inhoudelijke problemen te minimaliseren door testontwikkelaars met verschillende achtergronden items te laten beoordelen en door statistisch te onderzoeken of bepaalde groepen sommige items makkelijker of moeilijker vinden. Problemen zijn er echter wel degelijk en een recente analyse van de verbale SAT-tests wees uit dat blanken de neiging hebben beter te scoren op gemakkelijke items, terwijl Afro-Amerikanen, Latijns-Amerikanen en Aziatische Amerikanen beter scoren op moeilijke items (Freedle, 2002). Hoewel deze verschillen niet groot zijn, kunnen ze de testscores beïnvloeden. Onderzoekers denken dat de makkelijke items over woorden die gebruikt worden in alledaagse conversaties subtiel verschillende betekenissen kunnen hebben in verschillende subculturen terwijl de harde woorden (b.v. felheid, pluimstrijker) niet in elk gesprek gebruikt worden en dus niet deze variaties in betekenis hebben. De testopzet kan ook van invloed zijn op de testprestaties. Vrouwen scoren doorgaans beter op opstelvragen en toen de SAT onlangs een opstelcomponent toevoegde, verbeterden de algehele SAT verbale scores van vrouwen ten opzichte van mannen (Hoover, 2006).
Nauwkeurigheid van voorspellingen
Gestandaardiseerde tests worden naast andere criteria gebruikt om te bepalen wie wordt toegelaten tot selectieve hogescholen. Deze praktijk wordt gerechtvaardigd door voorspellende validiteit – d.w.z. dat de scores op de ACT of SAT worden gebruikt om de eerstejaarscijfers op de universiteit te voorspellen. Recente studies hebben aangetoond dat de voorspellingen voor zwarte en Latino studenten minder accuraat zijn dan voor blanke studenten en dat de voorspellers voor vrouwelijke studenten minder accuraat zijn dan die voor mannelijke studenten (Young, 2004). Toch is het misschien verrassend dat de testscores voor zwarte en Latino studenten een iets te hoge voorspeller zijn van succes op de universiteit, d.w.z. dat deze studenten waarschijnlijk lagere eerstejaarscijfers halen dan voorspeld door hun testscores. Daarentegen voorspellen de testscores iets te weinig succes op de universiteit voor vrouwelijke studenten, d.w.z. dat deze studenten waarschijnlijk hogere eerstejaarspuntgemiddelden halen dan voorspeld door hun testscores. Onderzoekers weten niet zeker waarom er verschillen zijn in hoe nauwkeurig de SAT- en ACT-test eerstejaarscijfers voorspellen.
Stereotype bedreiging
Groepen die op een bepaald gebied negatief worden gestereotypeerd, zoals de prestaties van vrouwen in wiskunde, lopen het gevaar van stereotype bedreiging, d.w.z. bezorgdheid dat anderen hen door de negatieve of stereotype lens zullen bekijken (Aronson & Steele, 2005). Studies hebben aangetoond dat testprestaties van stereotype groepen (bijv. Afro-Amerikanen, Latino’s, vrouwen) afnemen wanneer aan degenen die de test afleggen wordt benadrukt dat (a) de test van groot belang is, intelligentie of wiskunde meet en (b) ze worden herinnerd aan hun etniciteit, ras of geslacht (bijv. door hen vóór de test te vragen een korte demografische vragenlijst in te vullen). Zelfs als mensen denken dat ze competent zijn, kan stereotype bedreiging de werkgeheugencapaciteit verminderen omdat mensen proberen de negatieve stereotypen te onderdrukken. Stereotype bedreiging lijkt vooral sterk te zijn voor individuen die goed willen presteren. Gestandaardiseerde testscores van individuen uit stereotype groepen kunnen een significante onderschatting zijn van hun werkelijke competentie in toetssituaties waarin weinig wordt getoetst.
Do teachers teach to the tests?
Er zijn aanwijzingen dat scholen en leraren het curriculum zo aanpassen dat het een afspiegeling is van wat er op de toetsen staat en dat het leerlingen ook voorbereidt op het formaat en de soorten items op de toets. Uit verschillende enquêtes onder basisschoolleraren blijkt dat in 2004 meer tijd werd besteed aan wiskunde en lezen en minder aan maatschappijleer en natuurwetenschappen dan in 1990 (Jerald, 2006). Directeuren van scholen met veel minderheden in vier staten meldden in 2003 dat ze minder tijd aan kunst hadden besteed. Recent onderzoek in de cognitieve wetenschap suggereert dat begrijpend lezen in een vak (bijv. wetenschap of sociale studies) vereist dat leerlingen veel woordenschat en achtergrondkennis in dat vak begrijpen (Recht & Leslie, 1988). Dit betekent dat zelfs als leerlingen goede leesvaardigheden verwerven, zij het leren van wetenschap en maatschappijleer moeilijk zullen vinden als er weinig tijd aan deze onderwerpen is besteed.
Het maken van een toets met een onbekend format kan moeilijk zijn, dus leraren helpen leerlingen zich voor te bereiden op specifieke toetsformats en items (bijv. dubbele negatieven in meerkeuze-items; geconstrueerde respons). Eerder in dit hoofdstuk beschreven een lerares van een middelbare school, Erin, en directeur Dr Mucci de nadruk op testvoorbereiding op hun scholen. Er is groeiende bezorgdheid dat de hoeveelheid testvoorbereiding die nu op scholen plaatsvindt buitensporig is en dat leerlingen niet worden opgeleid maar getraind om tests te maken (Popham, 2004).
Spieken leerlingen en docenten?
Het is moeilijk om goede gegevens te verkrijgen over hoe wijdverbreid spieken is, maar we weten dat leerlingen die tests afnemen spieken en dat anderen, waaronder testbeheerders, hen helpen spieken (Cizek, 2003; Popham 2006). Maatregelen om spieken door leerlingen te voorkomen zijn onder meer de beveiliging van toetsen, ervoor zorgen dat leerlingen de administratieprocedures begrijpen, voorkomen dat leerlingen hun aantekeningen of niet-goedgekeurde elektronische apparaten meebrengen en elkaars antwoorden bekijken. Sommige leraren en directeuren zijn betrapt op het gebruik van onethische testvoorbereidingspraktijken, zoals het geven van echte testonderdelen aan studenten vlak voor de test, het geven van meer tijd aan studenten dan is toegestaan, het beantwoorden van vragen van studenten over de testonderdelen, en het daadwerkelijk veranderen van de antwoorden van studenten (Popham, 2006). Bezorgdheid in Texas over valsspelen leidde in augustus 2006 tot de oprichting van een onafhankelijke taskforce met 15 medewerkers van het Texas Education Agency die werd belast met het onderzoeken van onregelmatigheden bij toetsen. (Jacobson, 2006). Hoewel de druk op scholen en leraren om hun leerlingen goed te laten presteren groot is, zijn deze praktijken duidelijk onethisch en hebben ertoe geleid dat schoolpersoneel uit hun functie is ontslagen (Cizek, 2003).
Aronson, J., & Steele, C. M. (2005). Stereotypes and the Fragility of Academic Competence, Motivation, and Self-Concept. In A. J. Elliott & C. S. Dweck (Eds.). Handboek van competentie en motivatie. (pp.436-456) Guilford Publications, New York.
Cizek, G. J. (2003). Het opsporen en voorkomen van spieken in de klas: Bevordering van integriteit bij beoordeling. Corwin Press, Thousand Oaks, CA.
Freedle, R. O. (2003). Correcting the SAT’s ethnic and social-class bias: A method for reestimating SAT scores. Harvard Educational Review, 73(1), 1-42.
Hoover, E. (2006, 21 oktober). SAT scores zien grootste dip in 31 jaar. Chronicle of Higher Education, 53(10), A1.
Jacobson, L. (2006). Onregelmatigheden bij toetsen onderzoeken: Texas start onderzoek naar spieken op examens. Education Week, 28(1), 28
Jerald, C. D (2006,August).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement. Accessed November 21, 2006 from www.centerforcsri.org/
Popham, W. J. (2004). Amerika’s “falende” scholen. How parents and teachers can copy with No Child Left Behind. New York: Routledge Falmer.
Popham, W. J. (2006). Opvoeder bedriegt bij No Child Left Behind Tests. Educational Week, 25(32) 32-33.
Recht, D. R. & Leslie, L. (1988). Effect of prior knowledge on good and poor readers’ memory of text. Journal of Educational Psychology 80, 16-20.
Young, J. W. (2004). Differentiële validiteit en voorspelling: Race and sex differences in college admissions testing. In R. Zwick (Ed). Het heroverwegen van de SAT: The future of standardized testing in university admissions. New York (pp. 289-301). Routledge Falmer.