Muchas personas tienen opiniones muy firmes sobre el papel de las pruebas estandarizadas en la educación. Algunos creen que proporcionan una forma imparcial de determinar las habilidades cognitivas de un individuo, así como la calidad de una escuela o distrito. Otros creen que las puntuaciones de los exámenes estandarizados son caprichosas, no representan lo que los estudiantes saben y son engañosas cuando se utilizan con fines de responsabilidad. Muchos psicólogos de la educación y expertos en pruebas tienen puntos de vista matizados y hacen distinciones entre la información que las pruebas estandarizadas pueden proporcionar sobre el rendimiento de los estudiantes y cómo se interpretan y utilizan los resultados de las pruebas. Según este punto de vista matizado, muchos de los problemas asociados a las pruebas estandarizadas surgen de su uso de alto riesgo, como el uso del rendimiento en una prueba para determinar la selección en un programa, la graduación o la licencia, o para juzgar a una escuela como de alto o bajo rendimiento.

¿Están las pruebas estandarizadas sesgadas?

En una sociedad multicultural una pregunta crucial es: ¿Están las pruebas estandarizadas sesgadas en contra de ciertos grupos de clase social, raciales o étnicos? Esta pregunta es mucho más complicada de lo que parece porque el sesgo tiene varios significados. Un significado cotidiano de sesgo suele implicar la imparcialidad de utilizar los resultados de las pruebas estandarizadas para predecir el rendimiento potencial de los estudiantes desfavorecidos que han tenido previamente pocos recursos educativos. Por ejemplo, si a Dwayne, un estudiante de secundaria que se esforzó mucho pero tuvo pocas oportunidades educativas debido a las malas escuelas de su vecindario y a los pocos recursos educativos de su hogar, se le debe negar la graduación de la escuela secundaria debido a su puntuación en una prueba. No fue su culpa no tener los recursos educativos y si se le da una oportunidad con un cambio de entorno (por ejemplo, yendo a la universidad) su rendimiento puede florecer. Según este punto de vista, las puntuaciones de los exámenes reflejan las desigualdades sociales y pueden castigar a los estudiantes menos privilegiados, y a menudo se interpretan erróneamente como un reflejo de una capacidad heredada fija. Los investigadores suelen considerar el sesgo de forma más técnica y se discutirán tres cuestiones: el contenido y el formato de los ítems, la precisión de las predicciones y la amenaza de los estereotipos.

Contenido y formato de los ítems. Los ítems de las pruebas pueden ser más difíciles para algunos grupos que para otros. Un ejemplo de sesgo de clase social en un ítem de opción múltiple preguntaba a los estudiantes el significado del término campo. Se pedía a los alumnos que leyeran la frase inicial en cursiva y luego seleccionaran la respuesta que tuviera el mismo significado de campo (Popham 2004, p. 24):

  1. El campo de mi padre es la infografía.
    1. El lanzador pudo hacer campo en su posición
    2. Preparamos el campo arando
    3. El médico examinó mi campo de visión
    4. ¿En qué campo entrarás después de la universidad?

Es más probable que los hijos de los profesionales entiendan este significado de campo ya que los médicos, los periodistas y los abogados tienen «campos», mientras que los cajeros y los trabajadores de mantenimiento tienen trabajos por lo que es menos probable que sus hijos conozcan este significado de campo. (La respuesta correcta es la 4).

Las empresas que realizan las pruebas intentan minimizar este tipo de problemas de contenido haciendo que los desarrolladores de las pruebas, procedentes de diversos ámbitos, revisen los ítems y examinando estadísticamente si ciertos grupos encuentran algunos ítems más fáciles o más difíciles. Sin embargo, existen problemas y un análisis reciente de las pruebas verbales del SAT indicó que los blancos tienden a puntuar mejor en los ítems fáciles, mientras que los afroamericanos, los hispanoamericanos y los asiáticos americanos puntúan mejor en los ítems difíciles (Freedle, 2002). Aunque estas diferencias no son grandes, pueden influir en las puntuaciones de los exámenes. Los investigadores creen que los ítems fáciles que incluyen palabras que se utilizan en las conversaciones cotidianas pueden tener significados sutilmente diferentes en las distintas subculturas, mientras que las palabras difíciles (por ejemplo, vehemencia, adulador) no se utilizan en todas las conversaciones y, por tanto, no tienen estas variaciones de significado. El formato de las pruebas también puede influir en el rendimiento de las mismas. Las mujeres suelen obtener mejores resultados en las preguntas de redacción y, cuando el SAT añadió recientemente un componente de redacción, las puntuaciones verbales generales de las mujeres en el SAT mejoraron en relación con las de los hombres (Hoover, 2006).

Exactitud de las predicciones

Las pruebas estandarizadas se utilizan, entre otros criterios, para determinar quién será admitido en las universidades selectivas. Esta práctica se justifica por las pruebas de validez predictiva, es decir, que las puntuaciones del ACT o del SAT se utilizan para predecir las calificaciones del primer año de universidad. Estudios recientes han demostrado que las predicciones para los estudiantes negros y latinos son menos precisas que para los estudiantes blancos y que las predicciones para las estudiantes femeninas son menos precisas que las de los estudiantes masculinos (Young, 2004). Sin embargo, tal vez sorprendentemente, las puntuaciones de los tests tienden a predecir ligeramente el éxito en la universidad de los estudiantes negros y latinos, es decir, estos estudiantes son propensos a alcanzar promedios de notas de primer año más bajos que los predichos por sus puntuaciones de los tests. Por el contrario, las puntuaciones de los exámenes tienden a predecir ligeramente el éxito en la universidad de las mujeres, es decir, estos estudiantes son propensos a alcanzar promedios de notas de primer año más altos que los predichos por sus puntuaciones de los exámenes. Los investigadores no están seguros de por qué existen diferencias en la precisión de los exámenes SAT y ACT para predecir las calificaciones de los estudiantes de primer año.

Amenaza del estereotipo

Los grupos que son estereotipados negativamente en algún área, como el rendimiento de las mujeres en matemáticas, corren el riesgo de sufrir la amenaza del estereotipo, es decir, la preocupación de que los demás los vean a través de la lente negativa o estereotipada (Aronson & Steele, 2005). Los estudios han demostrado que el rendimiento en los exámenes de los grupos estereotipados (por ejemplo, afroamericanos, latinos, mujeres) disminuye cuando se recalca a los que realizan el examen que (a) el examen es de alto nivel, mide la inteligencia o las matemáticas y (b) se les recuerda su etnia, raza o género (por ejemplo, pidiéndoles antes del examen que rellenen un breve cuestionario demográfico). Incluso si los individuos creen que son competentes, la amenaza de los estereotipos puede reducir la capacidad de la memoria de trabajo porque los individuos intentan suprimir los estereotipos negativos. La amenaza de los estereotipos parece ser especialmente fuerte para aquellos individuos que desean tener un buen rendimiento. Las puntuaciones estandarizadas de los individuos pertenecientes a grupos estereotipados pueden subestimar significativamente su competencia real en situaciones de pruebas de baja exigencia.

¿Enseñan los profesores según las pruebas?

Hay pruebas de que las escuelas y los profesores ajustan el plan de estudios para que refleje lo que aparece en las pruebas y también prepara a los estudiantes para el formato y los tipos de elementos de la prueba. Varias encuestas realizadas a profesores de primaria indican que en 2004 se dedicó más tiempo a las matemáticas y la lectura y menos a los estudios sociales y las ciencias que en 1990 (Jerald, 2006). Los directores de las escuelas con alta inscripción de minorías en cuatro estados informaron en 2003 que habían reducido el tiempo dedicado a las artes. Investigaciones recientes en ciencias cognitivas sugieren que la comprensión de la lectura en una asignatura (por ejemplo, ciencias o estudios sociales) requiere que los alumnos comprendan mucho vocabulario y conocimientos previos de esa asignatura (Recht & Leslie, 1988). Esto significa que, aunque los estudiantes adquieran buenas habilidades de lectura, les resultará difícil aprender ciencias y estudios sociales si se ha dedicado poco tiempo a estas materias.

Hacer un examen con un formato desconocido puede ser difícil, por lo que los profesores ayudan a los estudiantes a prepararse para formatos e ítems específicos de los exámenes (por ejemplo, dobles negativos en ítems de opción múltiple; respuesta construida). Anteriormente en este capítulo, una profesora de secundaria, Erin, y el director, el Dr. Mucci, describieron el énfasis en la preparación de los exámenes en sus escuelas. Existe una creciente preocupación de que la cantidad de preparación para los exámenes que se lleva a cabo en las escuelas es excesiva y que los estudiantes no están siendo educados sino entrenados para hacer exámenes (Popham, 2004).

¿Los estudiantes y los educadores hacen trampas?

Es difícil obtener buenos datos sobre lo extendido que está el engaño, pero sabemos que los estudiantes que hacen exámenes hacen trampas y otros, incluyendo los administradores de los exámenes, les ayudan a hacer trampas (Cizek, 2003; Popham 2006). Las medidas para evitar que los alumnos hagan trampas incluyen proteger la seguridad de los exámenes, asegurarse de que los alumnos entienden los procedimientos de administración, impedir que los alumnos traigan sus apuntes o dispositivos electrónicos no aprobados, así como que miren las respuestas de los demás. Algunos profesores y directores han sido sorprendidos utilizando prácticas poco éticas en la preparación de los exámenes, como dar elementos reales de los exámenes a los alumnos justo antes de los mismos, dar a los alumnos más tiempo del permitido, responder a las preguntas de los alumnos sobre los elementos del examen y cambiar realmente las respuestas de los alumnos (Popham, 2006). La preocupación en Texas por las trampas llevó a la creación de un grupo de trabajo independiente en agosto de 2006 con 15 miembros del personal de la Agencia de Educación de Texas a los que se asignó la investigación de las irregularidades en los exámenes. (Jacobson, 2006). Aunque la presión sobre las escuelas y los profesores para que sus alumnos obtengan buenos resultados es grande, estas prácticas son claramente contrarias a la ética y han provocado el despido de personal escolar (Cizek, 2003).

Aronson, J., &Steele, C. M. (2005). Stereotypes and the Fragility of Academic Competence, Motivation, and Self-Concept. En A. J. Elliott & C. S. Dweck (Eds.). Manual de competencia y motivación. (pp.436-456) Guilford Publications, New York.

Cizek, G. J. (2003). Detección y prevención de las trampas en el aula: Promoting integrity in assessment. Corwin Press, Thousand Oaks, CA.

Freedle, R. O. (2003). Corregir el sesgo étnico y de clase social del SAT: A method for reestimating SAT scores. Harvard Educational Review, 73(1), 1-42.

Hoover, E. (2006, 21 de octubre). SAT scores see largest dip en 31 años. Chronicle of Higher Education, 53(10), A1.

Jacobson, L. (2006). Probing Test irregularities: Texas lanza una investigación sobre las trampas en los exámenes. Education Week, 28(1), 28

Jerald, C. D (2006,agosto).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement. Consultado el 21 de noviembre de 2006 en www.centerforcsri.org/

Popham, W. J. (2004). America’s «failing» schools. How parents and teachers can copy with No Child Left Behind. Nueva York: Routledge Falmer.

Popham, W. J. (2006). Educator cheating on No Child Left Behind Tests. Educational Week, 25(32) 32-33.

Recht, D. R. & Leslie, L. (1988). Effect of prior knowledge on good and poor readers’ memory of text. Journal of Educational Psychology 80, 16-20.

Young, J. W. (2004). Validez y predicción diferencial: Diferencias de raza y sexo en las pruebas de admisión a la universidad. En R. Zwick (Ed). Rethinking the SAT: The future of standardized testing in university admissions. Nueva York (pp. 289-301). Routledge Falmer.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.