Wiele osób ma bardzo silne poglądy na temat roli testów standaryzowanych w edukacji. Niektórzy uważają, że zapewniają one bezstronny sposób określania umiejętności poznawczych jednostki, jak również jakości szkoły lub dzielnicy. Inni uważają, że wyniki testów standaryzowanych są kapryśne, nie reprezentują tego, co uczniowie wiedzą i są mylące, gdy są używane do celów rozliczeniowych. Wielu psychologów edukacyjnych i ekspertów od testowania ma zniuansowane poglądy i rozróżnia pomiędzy informacjami, jakich testy standaryzowane mogą dostarczyć o osiągnięciach uczniów, a tym, jak wyniki testów są interpretowane i wykorzystywane. W tym zniuansowanym poglądzie, wiele problemów związanych ze standaryzowanymi testami wynika z ich stosowania na wysokich stawkach, takich jak używanie wyników na jednym teście do określenia wyboru do programu, ukończenia studiów lub licencji, lub oceniania szkoły jako osiągającej wysokie lub niskie wyniki.
Czy standaryzowane testy są stronnicze?
W wielokulturowym społeczeństwie jedno zasadnicze pytanie brzmi: Czy standaryzowane testy są stronnicze wobec pewnych klas społecznych, grup rasowych lub etnicznych? To pytanie jest o wiele bardziej skomplikowane niż się wydaje, ponieważ uprzedzenie ma wiele różnych znaczeń. W potocznym rozumieniu stronniczość często wiąże się ze sprawiedliwością używania wyników testów standaryzowanych do przewidywania potencjalnych wyników uczniów znajdujących się w niekorzystnej sytuacji, którzy wcześniej mieli niewiele zasobów edukacyjnych. Na przykład, czy Dwayne’owi, uczniowi szkoły średniej, który ciężko pracował, ale miał ograniczone możliwości edukacyjne ze względu na kiepskie szkoły w jego sąsiedztwie i niewiele zasobów edukacyjnych w domu, powinno się odmówić ukończenia szkoły średniej z powodu jego wyniku na jednym teście. To nie jego wina, że nie miał zasobów edukacyjnych i jeśli da mu się szansę na zmianę środowiska (np. pójście do college’u), jego wyniki mogą rozkwitnąć. W tym ujęciu, wyniki testów odzwierciedlają nierówności społeczne i mogą karać uczniów, którzy są mniej uprzywilejowani, i są często błędnie interpretowane jako odzwierciedlenie ustalonych, odziedziczonych zdolności. Badacze zazwyczaj rozważają stronniczość w bardziej techniczny sposób i trzy kwestie zostaną omówione: zawartość pozycji i format; dokładność przewidywań i zagrożenie stereotypem.
Treść pozycji i format. Pozycje testowe mogą być trudniejsze dla niektórych grup niż dla innych. Przykładem uprzedzenia do klasy społecznej w pozycji wielokrotnego wyboru jest pytanie uczniów o znaczenie terminu pole. Uczniowie zostali poproszeni o przeczytanie początkowego zdania zapisanego kursywą, a następnie wybranie odpowiedzi, która miała takie samo znaczenie terminu pole (Popham 2004, s. 24):
- Dziedziną mojego taty jest grafika komputerowa.
- Młotnik mógł uprawiać pole na swojej pozycji
- Przygotowaliśmy pole, orząc je
- Lekarz zbadał moje pole widzenia
- Jaką dziedzinę wybierzesz po studiach?
Dzieci profesjonalistów są bardziej skłonne do zrozumienia tego znaczenia pola, ponieważ lekarze, dziennikarze i prawnicy mają „pola”, podczas gdy kasjerzy i konserwatorzy mają pracę, więc ich dzieci są mniej skłonne do poznania tego znaczenia pola. (Prawidłowa odpowiedź to 4).
Firmy testujące starają się zminimalizować tego rodzaju problemy z treścią, zlecając twórcom testów z różnych środowisk przegląd pozycji i badając statystycznie, czy pewne grupy uważają niektóre pozycje za łatwiejsze lub trudniejsze. Jednakże, problemy istnieją i ostatnia analiza ustnych testów SAT wskazała, że biali mają tendencję do uzyskiwania lepszych wyników na łatwych pozycjach, podczas gdy Afroamerykanie, Latynosi i Azjaci uzyskują lepsze wyniki na pozycjach trudnych (Freedle, 2002). Chociaż różnice te nie są duże, mogą mieć wpływ na wyniki testu. Badacze uważają, że łatwe zadania obejmujące słowa, które są używane w codziennej rozmowie, mogą mieć subtelnie różne znaczenia w różnych subkulturach, podczas gdy trudne słowa (np. gwałtowność, pochlebca) nie są używane w każdej rozmowie i dlatego nie mają takich różnic w znaczeniu. Format testu może również wpływać na wyniki testu. Kobiety zazwyczaj uzyskują lepsze wyniki w pytaniach eseistycznych i kiedy SAT ostatnio dodał komponent eseju, żeńskie ogólne werbalne wyniki SAT poprawiły się w stosunku do męskich (Hoover, 2006).
Dokładność przewidywań
Standaryzowane testy są używane wśród innych kryteriów, aby określić, kto zostanie przyjęty do selektywnych szkół wyższych. Ta praktyka jest uzasadniona przez dowody ważności predykcyjnej – tj. że wyniki ACT lub SAT są używane do przewidywania ocen na pierwszym roku studiów. Ostatnie badania wykazały, że przewidywania dla czarnych i latynoskich studentów są mniej dokładne niż dla białych studentów i że przewidywania dla studentów płci żeńskiej są mniej dokładne niż dla studentów płci męskiej (Young, 2004). Jednakże, być może zaskakująco, wyniki testów mają tendencję do nieco zawyżania przewidywań sukcesu w college’u dla czarnych i latynoskich studentów, tj. ci studenci prawdopodobnie osiągną niższe średnie ocen na początku roku niż przewidywane przez ich wyniki testów. W przeciwieństwie do tego, wyniki testu mają tendencję do nieco zaniżonych przewidywań sukcesu w college’u dla studentów płci żeńskiej, tj. ci studenci prawdopodobnie osiągną wyższe średnie z ocen na początku studiów niż przewidywane przez ich wyniki testu. Naukowcy nie są pewni, dlaczego istnieją różnice w tym, jak dokładnie testy SAT i ACT przewidują oceny na początku studiów.
Zagrożenie stereotypem
Grupy, które są negatywnie stereotypizowane w jakimś obszarze, takie jak wyniki kobiet w matematyce, są w niebezpieczeństwie zagrożenia stereotypem, tj. obaw, że inni będą postrzegać je przez negatywny lub stereotypowy pryzmat (Aronson & Steele, 2005). Badania wykazały, że wyniki testów grup stereotypowych (np. Afroamerykanów, Latynosów, kobiet) spadają, gdy osobom przystępującym do testu podkreśla się, że (a) test ma wysoką stawkę, mierzy inteligencję lub matematykę i (b) przypomina się im o ich pochodzeniu etnicznym, rasie lub płci (np. prosząc je przed testem o wypełnienie krótkiego kwestionariusza demograficznego). Nawet jeśli osoby uważają, że są kompetentne, zagrożenie stereotypowe może zmniejszyć pojemność pamięci roboczej, ponieważ starają się one wyprzeć negatywne stereotypy. Zagrożenie stereotypowe wydaje się szczególnie silne w przypadku osób, które chcą osiągać dobre wyniki. Standaryzowane wyniki testów osób ze stereotypowych grup mogą znacząco zaniżać rzeczywiste kompetencje w sytuacjach testowych o niskim poziomie trudności.
Czy nauczyciele uczą do testów?
Istnieją dowody na to, że szkoły i nauczyciele dostosowują program nauczania tak, by odzwierciedlał to, co znajduje się w testach, a także przygotowują uczniów do formatu i rodzajów pozycji w testach. Kilka ankiet przeprowadzonych wśród nauczycieli szkół podstawowych wskazuje, że w 2004 roku więcej czasu poświęcono matematyce i czytaniu, a mniej naukom społecznym i ścisłym niż w 1990 roku (Jerald, 2006). Dyrektorzy szkół, do których uczęszcza wielu mniejszości w czterech stanach, poinformowali w 2003 roku, że zmniejszyli ilość czasu poświęcanego sztuce. Ostatnie badania z zakresu kognitywistyki sugerują, że zrozumienie czytania z danego przedmiotu (np. nauki ścisłe lub społeczne) wymaga od uczniów zrozumienia dużej ilości słownictwa i podstawowej wiedzy z tego przedmiotu (Recht & Leslie, 1988). Oznacza to, że nawet jeśli uczniowie zdobędą dobre umiejętności czytania, będą mieli trudności z nauką przedmiotów ścisłych i społecznych, jeśli poświęcano im niewiele czasu.
Robienie testu o nieznanym formacie może być trudne, więc nauczyciele pomagają uczniom przygotować się do określonych formatów testów i pytań (np. podwójne przeczenia w pytaniach wielokrotnego wyboru; konstruowanie odpowiedzi). Wcześniej w tym rozdziale nauczycielka gimnazjum, Erin, i dyrektor dr Mucci opisali nacisk, jaki kładzie się na przygotowanie do testów w ich szkołach. Istnieją coraz większe obawy, że ilość przygotowań do testów, które obecnie mają miejsce w szkołach jest nadmierna i uczniowie nie są kształceni, ale szkoleni do wykonywania testów (Popham, 2004).
Czy uczniowie i nauczyciele oszukują?
Trudno jest uzyskać dobre dane na temat tego, jak powszechne jest oszukiwanie, ale wiemy, że uczniowie biorący udział w testach oszukują i inni, w tym administratorzy testów, pomagają im oszukiwać (Cizek, 2003; Popham 2006). Kroki zapobiegające oszukiwaniu przez uczniów obejmują ochronę bezpieczeństwa testów, upewnienie się, że uczniowie rozumieją procedury administracyjne, uniemożliwienie uczniom przynoszenia notatek lub niedozwolonych urządzeń elektronicznych, a także zaglądania sobie nawzajem do odpowiedzi. Niektórzy nauczyciele i dyrektorzy zostali przyłapani na stosowaniu nieetycznych praktyk przygotowywania testów, takich jak dawanie uczniom rzeczywistych pozycji testowych tuż przed testami, dawanie uczniom więcej czasu niż jest to dozwolone, odpowiadanie na pytania uczniów dotyczące pozycji testowych i zmienianie odpowiedzi uczniów (Popham, 2006). Obawy w Teksasie dotyczące oszukiwania doprowadziły do utworzenia w sierpniu 2006 roku niezależnej grupy zadaniowej, w skład której weszło 15 pracowników Teksańskiej Agencji Edukacyjnej, których zadaniem było zbadanie nieprawidłowości związanych z testami. (Jacobson, 2006). Podczas gdy presja na szkoły i nauczycieli, aby ich uczniowie osiągali dobre wyniki jest duża, praktyki te są wyraźnie nieetyczne i doprowadziły do zwolnienia personelu szkolnego z pracy (Cizek, 2003).
Aronson, J., & Steele, C. M. (2005). Stereotypes and the Fragility of Academic Competence, Motivation, and Self-Concept. In A. J. Elliott & C. S. Dweck (Eds.). Handbook of competence and motivation. (pp.436-456) Guilford Publications, New York.
Cizek, G. J. (2003). Wykrywanie i zapobieganie oszukiwaniu w klasie: Promoting integrity in assessment. Corwin Press, Thousand Oaks, CA.
Freedle, R. O. (2003). Korygowanie etnicznych i społecznych uprzedzeń klasowych w SAT: A method for reestimating SAT scores. Harvard Educational Review, 73(1), 1-42.
Hoover, E. (2006, 21 października). Wyniki SAT zobaczyć największy dip w 31 lat. Chronicle of Higher Education, 53(10), A1.
Jacobson, L. (2006). Badanie nieprawidłowości testów: Texas rozpoczyna dochodzenie w sprawie oszukiwania na egzaminach. Education Week, 28(1), 28
Jerald, C. D (2006, sierpień).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement. Dostęp 21 listopada, 2006 z www.centerforcsri.org/
Popham, W. J. (2004). Amerykańskie „upadające” szkoły. Jak rodzice i nauczyciele mogą poradzić sobie z No Child Left Behind. New York: Routledge Falmer.
Popham, W. J. (2006). Edukator oszukiwanie na No Child Left Behind Tests. Educational Week, 25(32) 32-33.
Recht, D. R. & Leslie, L. (1988). Effect of prior knowledge on good and poor readers’ memory of text. Journal of Educational Psychology 80, 16-20.
Young, J. W. (2004). Zróżnicowana ważność i przewidywanie: Różnice rasowe i płciowe w testach wstępnych na studia. In R. Zwick (Ed). Rethinking the SAT: The future of standardized testing in university admissions. New York (pp. 289-301). Routledge Falmer.