Mange mennesker har meget stærke holdninger til den rolle, som standardiserede test spiller i undervisningen. Nogle mener, at de giver en uvildig måde at bestemme et individs kognitive færdigheder samt kvaliteten af en skole eller et distrikt på. Andre mener, at resultaterne fra standardiserede test er lunefulde, ikke repræsenterer, hvad eleverne ved, og at de er vildledende, når de bruges til ansvarlighed. Mange pædagogiske psykologer og testeksperter har nuancerede synspunkter og skelner mellem de oplysninger, som standardiserede test kan give om elevernes præstationer, og hvordan testresultaterne fortolkes og anvendes. I dette nuancerede synspunkt skyldes mange af de problemer, der er forbundet med standardiserede test, at de anvendes med store indsatser, f.eks. ved at bruge resultaterne af en test til at afgøre udvælgelsen til et program, en eksamen eller en licens eller til at bedømme en skole som høj- eller lavtydende.
Er standardiserede test forudindtaget?
I et multikulturelt samfund er et afgørende spørgsmål: Er standardiserede test forudindtaget mod bestemte sociale klasser, racer eller etniske grupper? Dette spørgsmål er meget mere kompliceret, end det ser ud til at være, fordi fordomme har en række forskellige betydninger. En dagligdags betydning af bias indebærer ofte, at det er retfærdigt at bruge resultaterne af standardiserede test til at forudsige potentielle præstationer hos dårligt stillede elever, som tidligere har haft få uddannelsesressourcer. Skal Dwayne, en gymnasieelev, der har arbejdet hårdt, men som har haft begrænsede uddannelsesmuligheder på grund af de dårlige skoler i hans nabolag og få uddannelsesressourcer i hans hjem, f.eks. nægtes eksamen fra gymnasiet på grund af hans resultat på én test? Det var ikke hans skyld, at han ikke havde de nødvendige uddannelsesressourcer, og hvis han fik en chance med en ændring af sine omgivelser (f.eks. ved at gå på college), ville hans præstationer måske blomstre op. I dette synspunkt afspejler testresultater samfundsmæssige uligheder og kan straffe elever, der er mindre privilegerede, og de tolkes ofte fejlagtigt som en afspejling af en fast arvelig kapacitet. Forskere overvejer typisk bias på mere tekniske måder, og tre spørgsmål vil blive diskuteret: elementernes indhold og format, forudsigelsernes nøjagtighed og stereotyp trussel.
Etems indhold og format. Prøveemner kan være sværere for nogle grupper end for andre. Et eksempel på social klassebias i en multiple choice-opgave, hvor eleverne blev spurgt om betydningen af begrebet felt. Eleverne blev bedt om at læse den indledende sætning i kursiv og derefter vælge det svar, der havde den samme betydning af felt (Popham 2004, s. 24):
- Min fars felt er computergrafik.
- Kasteren kunne spille på sin position
- Vi forberedte feltet ved at pløje det
- Lægen undersøgte mit synsfelt
- Hvilket felt vil du gå ind på efter college?
Børn af fagfolk er mere tilbøjelige til at forstå denne betydning af felt, da læger, journalister og advokater har “felter”, mens kassedamer og vedligeholdelsesarbejdere har job, så deres børn er mindre tilbøjelige til at kende denne betydning af felt. (Det korrekte svar er 4).
Testvirksomheder forsøger at minimere denne type indholdsproblemer ved at lade testudviklere med forskellige baggrunde gennemgå emnerne og ved statistisk at undersøge, om visse grupper finder nogle emner lettere eller sværere. Der findes dog problemer, og en nyere analyse af de verbale SAT-tests viste, at hvide har en tendens til at score bedre på lette opgaver, mens afroamerikanere, latinamerikanere og asiatiske amerikanere scorer bedre på svære opgaver (Freedle, 2002). Selv om disse forskelle ikke er store, kan de påvirke testresultaterne. Forskerne mener, at de lette spørgsmål, der omfatter ord, som bruges i daglig tale, kan have subtilt forskellige betydninger i forskellige subkulturer, mens de svære ord (f.eks. heftighed, sycophant) ikke bruges i hver eneste samtale og derfor ikke har disse variationer i betydning. Testformatet kan også påvirke testpræstationen. Kvinder scorer typisk bedre på essay-spørgsmål, og da SAT for nylig tilføjede en essay-komponent, forbedrede kvindernes samlede verbale SAT-scorer sig i forhold til mændene (Hoover, 2006).
Præcision af forudsigelser
Standardiserede tests bruges blandt andre kriterier til at afgøre, hvem der bliver optaget på selektive colleges. Denne praksis er begrundet i beviser for prædiktiv validitet – dvs. at scorer på ACT eller SAT bruges til at forudsige karakterer på første år på college. Nyere undersøgelser har vist, at forudsigelserne for sorte og latinamerikanske studerende er mindre præcise end for hvide studerende, og at forudsigelserne for kvindelige studerende er mindre præcise end for mandlige studerende (Young, 2004). Det er dog måske overraskende, at testresultaterne har en tendens til at forudsige lidt for meget om succes på college for sorte og latinamerikanske studerende, dvs. at disse studerende sandsynligvis opnår lavere karaktergennemsnit på første år på college end forudsagt af deres testresultater. Derimod er der en tendens til, at testresultaterne har en tendens til at forudsige lidt for lavt at forudsige succes på college for kvindelige studerende, dvs. at disse studerende sandsynligvis opnår højere karaktergennemsnit for førsteårsstuderende end forudsagt af deres testresultater. Forskerne er ikke sikre på, hvorfor der er forskelle i, hvor præcist SAT- og ACT-testen forudsiger karakterer for førsteårsstuderende.
Stereotypetrussel
Grupper, der er negativt stereotypt på et eller andet område, f.eks. kvinders præstationer i matematik, er i fare for stereotypetrussel, dvs. bekymring for, at andre vil se dem gennem den negative eller stereotype optik (Aronson & Steele, 2005). Undersøgelser har vist, at stereotype gruppers (f.eks. afroamerikanere, latinamerikanere og kvinder) præstationer ved prøverne falder, når det understreges over for dem, der tager prøven, at (a) prøven har høje indsatser, måler intelligens eller matematik, og (b) de bliver mindet om deres etnicitet, race eller køn (f.eks. ved at bede dem om at udfylde et kort demografisk spørgeskema før prøven). Selv om enkeltpersoner mener, at de er kompetente, kan stereotyp trussel reducere arbejdshukommelseskapaciteten, fordi enkeltpersoner forsøger at undertrykke de negative stereotyper. Stereotypetrussel synes at være særlig stærk for de personer, der ønsker at præstere godt. Standardiserede testresultater for personer fra stereotype grupper kan i høj grad undervurdere deres faktiske kompetence i test-situationer med lav indsats.
Underviser lærerne til testene?
Der er tegn på, at skoler og lærere tilpasser læseplanen, så den afspejler det, der står i testene, og også forbereder eleverne på formatet og typerne af emner i testen. Flere undersøgelser af lærere i folkeskolen viste, at der blev brugt mere tid på matematik og læsning og mindre tid på samfundsfag og naturvidenskab i 2004 end i 1990 (Jerald, 2006). Rektorer på skoler med mange elever fra minoriteter i fire stater rapporterede i 2003, at de havde reduceret den tid, der blev brugt på kunst. Nyere forskning inden for kognitiv videnskab tyder på, at læseforståelse i et fag (f.eks. naturvidenskab eller samfundsfag) kræver, at eleverne forstår en masse ordforråd og baggrundsviden inden for det pågældende fag (Recht & Leslie, 1988). Det betyder, at selv om eleverne opnår gode læsefærdigheder, vil de have svært ved at lære naturvidenskab og samfundsfag, hvis der kun er brugt lidt tid på disse fag.
Det kan være svært at tage en prøve med et ukendt format, så lærerne hjælper eleverne med at forberede sig på specifikke prøveformater og opgaver (f.eks. dobbeltnegativ i multiple choice-opgaver; konstrueret respons). Tidligere i dette kapitel har en lærer på mellemtrinnet, Erin, og skoleleder Dr. Mucci beskrevet den vægt, der lægges på prøveforberedelse på deres skoler. Der er voksende bekymring for, at den mængde prøveforberedelse, der nu finder sted i skolerne, er overdreven, og at eleverne ikke bliver uddannet, men trænet til at gennemføre prøver (Popham, 2004).
Snyder elever og undervisere?
Det er vanskeligt at få gode data om, hvor udbredt snyd er, men vi ved, at elever, der tager prøver, snyder, og at andre, herunder prøveadministratorer, hjælper dem med at snyde (Cizek, 2003; Popham 2006). Foranstaltninger til forebyggelse af snyd fra elevernes side omfatter beskyttelse af prøvernes sikkerhed, sikring af, at eleverne forstår administrationsprocedurerne, forhindring af eleverne i at medbringe deres noter eller ikke-godkendte elektroniske apparater og i at se på hinandens svar. Nogle lærere og skoleledere er blevet taget i at bruge uetiske metoder til forberedelse af prøver, f.eks. ved at give eleverne de faktiske prøveemner lige før prøverne, give eleverne mere tid end tilladt, besvare elevernes spørgsmål om prøveemnerne og faktisk ændre elevernes svar (Popham, 2006). Bekymringerne i Texas om snyd førte til oprettelsen af en uafhængig taskforce i august 2006 med 15 medarbejdere fra Texas Education Agency, som fik til opgave at undersøge uregelmæssigheder i forbindelse med prøver. (Jacobson, 2006). Mens presset på skoler og lærere for at få deres elever til at præstere godt er stort, er disse metoder klart uetiske og har ført til, at skolepersonale er blevet fyret fra deres job (Cizek, 2003).
Aronson, J., & Steele, C. M. (2005). Stereotyper og skrøbeligheden af akademisk kompetence, motivation og selvopfattelse. I A. J. Elliott & C. S. Dweck (Eds.). Håndbog om kompetence og motivation. (pp.436-456) Guilford Publications, New York.
Cizek, G. J. (2003). Opsporing og forebyggelse af snyd i klasseværelset: Fremme af integritet i vurderingen. Corwin Press, Thousand Oaks, CA.
Freedle, R. O. (2003). Korrektion af SAT’s etniske og sociale klasses skævheder: En metode til reestimering af SAT-scoringer. Harvard Educational Review, 73(1), 1-42.
Hoover, E. (2006, 21. oktober 2006). SAT-scoringer oplever det største fald i 31 år. Chronicle of Higher Education, 53(10), A1.
Jacobson, L. (2006). Undersøgelse af uregelmæssigheder i testen: Texas iværksætter undersøgelse af eksamenssnyd. Education Week, 28(1), 28
Jerald, C. D (2006,August).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement. Besøgt den 21. november 2006 fra www.centerforcsri.org/
Popham, W. J. (2004). Amerikas “fejlslagne” skoler. Hvordan forældre og lærere kan kopiere med No Child Left Behind. New York: Routledge Falmer.
Popham, W. J. (2006). Snyd fra pædagoger ved No Child Left Behind-tests. Educational Week, 25(32) 32-33.
Recht, D. R. & Leslie, L. (1988). Effekten af forudgående viden på gode og dårlige læseres hukommelse af tekst. Journal of Educational Psychology 80, 16-20.
Young, J. W. (2004). Differentiel validitet og forudsigelse: Race og kønsforskelle i test til optagelse på college. I R. Zwick (Ed). Rethinking the SAT: The future of standardized testing in university admissions. New York (pp. 289-301). Routledge Falmer.