Muitas pessoas têm uma visão muito forte sobre o papel dos testes padronizados na educação. Alguns acreditam que eles fornecem uma forma imparcial para determinar as habilidades cognitivas de um indivíduo, bem como a qualidade de uma escola ou distrito. Outros acreditam que os resultados dos testes padronizados são caprichosos, não representam o que os alunos sabem, e são enganosos quando usados para fins de responsabilidade. Muitos psicólogos educacionais e especialistas em testes têm visões matizadas e fazem distinções entre as informações que os testes padronizados podem fornecer sobre o desempenho dos alunos e como os resultados dos testes são interpretados e utilizados. Nesta visão matizada, muitos dos problemas associados aos testes padronizados decorrem do seu alto grau de utilização, tais como o uso do desempenho em um teste para determinar a seleção em um programa, graduação, ou licenciamento, ou julgar uma escola como de alto ou baixo desempenho.
Testes padronizados são tendenciosos?
Em uma sociedade multicultural uma questão crucial é: Os testes padronizados são tendenciosos em relação a certos grupos sociais, raciais ou étnicos? Esta pergunta é muito mais complicada do que parece porque o viés tem uma variedade de significados. Um significado diário de enviesamento muitas vezes envolve a imparcialidade do uso de resultados de testes padronizados para prever o desempenho potencial de estudantes desfavorecidos que anteriormente tinham poucos recursos educacionais. Por exemplo, se Dwayne, um estudante do ensino médio que trabalhou duro, mas teve oportunidades educacionais limitadas por causa das escolas pobres de seu bairro e dos poucos recursos educacionais de sua casa, deveria ser negado o diploma do ensino médio por causa de sua pontuação em um teste. Não foi culpa dele que não tivesse os recursos educacionais e se lhe fosse dada uma chance com uma mudança no seu ambiente (por exemplo, indo para a faculdade) o seu desempenho poderia florescer. Nessa visão, as notas nos testes refletem desigualdades sociais e podem punir os alunos menos privilegiados, sendo muitas vezes erroneamente interpretadas como um reflexo de uma capacidade fixa herdada. Os pesquisadores normalmente consideram o viés de formas mais técnicas e três questões serão discutidas: conteúdo e formato do item; precisão das previsões e ameaça estereotipada.
Item conteúdo e formato. Os itens de teste podem ser mais difíceis para alguns grupos do que para outros. Um exemplo de viés de classe social em um item de múltipla escolha perguntou aos alunos o significado do campo do termo. Os estudantes foram solicitados a ler a frase inicial em itálico e depois selecionar a resposta que tinha o mesmo significado de campo (Popham 2004, p. 24):
- O campo do meu pai é computação gráfica.
- O jarro poderia colocar a sua posição
- Preparamos o campo lavrando-o
- O médico examinou o meu campo de visão
- Que campo você vai entrar depois da faculdade?
As crianças de profissionais têm mais probabilidade de entender este significado de campo, já que médicos, jornalistas e advogados têm “campos”, enquanto que os caixas e trabalhadores de manutenção têm empregos, de modo que seus filhos têm menos probabilidade de conhecer este significado de campo. (A resposta correta é 4).
As empresas de testes tentam minimizar esses tipos de problemas de conteúdo, fazendo com que os desenvolvedores de testes de uma variedade de itens de revisão e examinando estatisticamente se certos grupos encontram alguns itens mais fáceis ou mais difíceis. No entanto, existem problemas e uma análise recente dos testes verbais do SAT indicou que os brancos tendem a obter melhores pontuações em itens fáceis, enquanto os afro-americanos, hispano-americanos e asiáticos-americanos obtêm melhores pontuações em itens difíceis (Freedle, 2002). Embora essas diferenças não sejam grandes, elas podem influenciar a pontuação dos testes. Pesquisadores pensam que os itens fáceis envolvendo palavras que são usadas em conversas diárias podem ter significados sutilmente diferentes em diferentes subculturas, enquanto as palavras duras (por exemplo, veemência, bajulador) não são usadas em todas as conversas e, portanto, não têm essas variações de significado. O formato do teste também pode influenciar o desempenho do teste. As mulheres normalmente obtêm melhores notas nas perguntas do ensaio e quando o SAT adicionou recentemente um componente de ensaio, as mulheres melhoraram a nota verbal geral do SAT em relação aos homens (Hoover, 2006).
Acuracidade das previsões
Testes padronizados são usados entre outros critérios para determinar quem será admitido nas faculdades seletivas. Esta prática é justificada pela evidência de validade preditiva – ou seja, que as notas no ACT ou SAT são usadas para prever as notas do primeiro ano de faculdade. Estudos recentes demonstraram que as previsões para estudantes negros e latinos são menos precisas do que para estudantes brancos e que as previsões para estudantes do sexo feminino são menos precisas do que para estudantes do sexo masculino (Young, 2004). Entretanto, talvez surpreendentemente os resultados dos testes tendem a prever um pouco mais o sucesso na faculdade para estudantes negros e latinos, ou seja, estes estudantes provavelmente alcançarão médias de pontos mais baixas de calouros do que o previsto por seus resultados nos testes. Em contraste, os resultados do teste tendem a prever um pouco menos o sucesso na faculdade para as estudantes do sexo feminino, ou seja, é provável que estas estudantes alcancem médias de pontos mais altas na primeira série do que o previsto por seus resultados no teste. Os pesquisadores não têm certeza porque existem diferenças na precisão com que os testes SAT e ACT predizem as notas dos calouros.
Ameaça estereotipada
Grupos que são negativamente estereotipados em alguma área, como o desempenho das mulheres em matemática, estão em perigo de ameaça estereotipada, ou seja, preocupações de que outros os vejam através da lente negativa ou estereotipada (Aronson & Steele, 2005). Estudos têm mostrado que o desempenho no teste de grupos estereotipados (por exemplo, afro-americanos, latinos, mulheres) declina quando se enfatiza para aqueles que fazem o teste que (a) o teste é de alto risco, mede inteligência ou matemática e (b) eles são lembrados de sua etnia, raça ou gênero (por exemplo, pedindo-lhes antes do teste que preencham um breve questionário demográfico). Mesmo que os indivíduos acreditem ser competentes, a ameaça dos estereótipos pode reduzir a capacidade da memória de trabalho porque os indivíduos estão a tentar suprimir os estereótipos negativos. A ameaça dos estereótipos parece ser particularmente forte para os indivíduos que desejam ter um bom desempenho. Os resultados dos testes padronizados de indivíduos de grupos estereotipados podem subestimar significativamente a sua competência real em situações de testes de baixa participação.
Os professores ensinam aos testes?
Existem evidências de que as escolas e os professores ajustam o currículo de modo a reflectir o que está nos testes e também preparam os alunos para o formato e tipos de itens no teste. Várias pesquisas com professores do ensino fundamental indicaram que em 2004 foi gasto mais tempo em matemática e leitura e menos em estudos sociais e ciências do que em 1990 (Jerald, 2006). Principais de escolas com matrículas de minorias elevadas em quatro estados relataram, em 2003, que haviam reduzido o tempo gasto com as artes. Pesquisas recentes em ciências cognitivas sugerem que a compreensão da leitura em uma disciplina (por exemplo, ciências ou estudos sociais) exige que os alunos compreendam muito vocabulário e conhecimentos de base nessa disciplina (Recht & Leslie, 1988). Isto significa que mesmo que os alunos adquiram boas habilidades de leitura, eles acharão difícil aprender ciências e estudos sociais se pouco tempo tiver sido gasto nessas disciplinas.
Fazer um teste com um formato desconhecido pode ser difícil, então os professores ajudam os alunos a se preparar para formatos e itens de teste específicos (por exemplo, negativos duplos em itens de múltipla escolha; resposta construída). No início deste capítulo, uma professora do ensino médio, Erin, e o diretor Dr. Mucci descreveram a ênfase da preparação do teste em suas escolas. Há uma preocupação crescente de que a quantidade de preparação para testes que está ocorrendo agora nas escolas é excessiva e os alunos não estão sendo educados, mas treinados para fazer testes (Popham, 2004).
Os alunos e educadores fazem batota?
É difícil obter bons dados sobre o quão generalizada é a batota, mas sabemos que os alunos que fazem batota nos testes e outros, incluindo administradores de testes, os ajudam a fazer batota (Cizek, 2003; Popham 2006). Os passos para evitar que os alunos façam batota incluem proteger a segurança dos testes, garantir que os alunos entendam os procedimentos administrativos, impedir que os alunos tragam suas notas ou dispositivos eletrônicos não aprovados, bem como olhar para as respostas uns dos outros. Alguns professores e directores foram apanhados a usar práticas antiéticas de preparação de testes, tais como dar aos alunos itens de teste reais imediatamente antes dos testes, dar aos alunos mais tempo do que o permitido, responder às perguntas dos alunos sobre os itens de teste e, na verdade, mudar as respostas dos alunos (Popham, 2006). As preocupações no Texas sobre batota levaram à criação de uma força-tarefa independente em agosto de 2006, com 15 funcionários da Agência de Educação do Texas encarregados de investigar as impropriedades dos testes. (Jacobson, 2006). Embora a pressão sobre as escolas e professores para que seus alunos tenham um bom desempenho seja grande, essas práticas são claramente antiéticas e levaram à demissão do pessoal escolar de seus empregos (Cizek, 2003).
Aronson, J., & Steele, C. M. (2005). Stereotypes and the Fragility of Academic Competence, Motivation, and Self-Concept (Estereótipos e a Fragilidade da Competência Acadêmica, Motivação e Auto-Conceito). Em A. J. Elliott & C. S. Dweck (Eds.). Handbook of competence and motivation. (pp.436-456) Guilford Publications, New York.
Cizek, G. J. (2003). Detectar e prevenir a trapaça na sala de aula: Promover a integridade na avaliação. Corwin Press, Thousand Oaks, CA.
Freedle, R. O. (2003). Corrigindo o viés étnico e de classe social do SAT: Um método para reestimar os resultados do SAT. Harvard Educational Review, 73(1), 1-42.
Hoover, E. (2006, 21 de outubro). As pontuações do SAT vêem o maior mergulho em 31 anos. Chronicle of Higher Education, 53(10), A1.
Jacobson, L. (2006). Irregularidades no Teste de Sondagem: Texas lança inquérito sobre trapacear nos exames. Education Week, 28(1), 28
Jerald, C. D (2006, agosto). The Hidden costs of curriculum estrerowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement (Centro para a Reforma e Melhoramento Escolar Abrangente). Acessado em 21 de novembro de 2006 em www.centerforcsri.org/
Popham, W. J. (2004). As escolas “falhadas” dos Estados Unidos. How parents and teachers can copy with No Child Left Behind. Nova Iorque: Routledge Falmer.
Popham, W. J. (2006). Educador trapaceando nos testes “No Child Left Behind”. Educational Week, 25(32) 32-33.
Recht, D. R. & Leslie, L. (1988). Efeito do conhecimento prévio na memória dos bons e pobres leitores de texto. Journal of Educational Psychology 80, 16-20.
Young, J. W. (2004). Validade e predição diferencial: Diferenças raciais e sexuais nos testes de admissão à faculdade. Em R. Zwick (Ed). Repensando o SAT: O futuro dos testes padronizados nas admissões universitárias. Nova York (pp. 289-301). Routledge Falmer.