Beaucoup de gens ont des opinions très fortes sur le rôle des tests standardisés dans l’éducation. Certains pensent qu’ils constituent un moyen impartial de déterminer les compétences cognitives d’un individu ainsi que la qualité d’une école ou d’un district. D’autres pensent que les résultats des tests standardisés sont capricieux, ne représentent pas les connaissances des élèves et sont trompeurs lorsqu’ils sont utilisés à des fins de responsabilisation. De nombreux psychologues de l’éducation et experts en tests ont des points de vue nuancés et font des distinctions entre les informations que les tests standardisés peuvent fournir sur les performances des élèves et la manière dont les résultats des tests sont interprétés et utilisés. Selon ce point de vue nuancé, bon nombre des problèmes associés aux tests standardisés découlent de leur utilisation à enjeux élevés, comme l’utilisation de la performance d’un test pour déterminer la sélection dans un programme, l’obtention d’un diplôme ou d’un permis d’exercer, ou le jugement d’une école comme étant très performante ou peu performante.

Les tests standardisés sont-ils biaisés ?

Dans une société multiculturelle, une question cruciale se pose : les tests standardisés sont-ils biaisés contre certains groupes de classe sociale, raciaux ou ethniques ? Cette question est beaucoup plus compliquée qu’il n’y paraît car le parti pris a plusieurs significations. Dans la vie de tous les jours, la notion de partialité implique souvent l’équité de l’utilisation des résultats des tests standardisés pour prédire les performances potentielles des élèves défavorisés qui ont eu peu de ressources éducatives. Par exemple, Dwayne, un lycéen qui a travaillé dur mais dont les possibilités d’éducation sont limitées en raison des mauvaises écoles de son quartier et du peu de ressources éducatives dont il dispose à la maison, devrait-il se voir refuser l’obtention de son diplôme de fin d’études secondaires en raison de son résultat à un test ? Ce n’est pas sa faute s’il n’a pas eu les ressources éducatives nécessaires et si on lui donne une chance en changeant son environnement (par exemple en allant à l’université), ses performances peuvent s’épanouir. Selon ce point de vue, les résultats des tests reflètent les inégalités sociétales et peuvent punir les élèves moins privilégiés, et sont souvent interprétés à tort comme le reflet d’une capacité héritée fixe. Les chercheurs considèrent généralement les préjugés de manière plus technique et trois questions seront abordées : le contenu et le format des items, l’exactitude des prédictions et la menace des stéréotypes.

Contenu et format des items. Les items d’un test peuvent être plus difficiles pour certains groupes que pour d’autres. Un exemple de biais de classe sociale dans un item à choix multiple demandait aux étudiants la signification du terme champ. On demandait aux élèves de lire la phrase initiale en italique, puis de choisir la réponse qui avait la même signification de champ (Popham 2004, p. 24) :

  1. Le champ de mon père est l’infographie.
    1. Le lanceur pouvait faire le champ de sa position
    2. Nous avons préparé le champ en le labourant
    3. Le médecin a examiné mon champ de vision
    4. Dans quel domaine entrerez-vous après l’université ?

Les enfants de professionnels sont plus susceptibles de comprendre ce sens de champ car les médecins, les journalistes et les avocats ont des « champs », tandis que les caissières et les agents d’entretien ont des emplois, de sorte que leurs enfants sont moins susceptibles de connaître ce sens de champ. (La bonne réponse est 4).

Les sociétés de test essaient de minimiser ces types de problèmes de contenu en demandant à des développeurs de tests issus de divers horizons de revoir les items et en examinant statistiquement si certains groupes trouvent certains items plus faciles ou plus difficiles. Cependant, les problèmes existent et une analyse récente des tests verbaux du SAT indique que les Blancs ont tendance à obtenir de meilleurs résultats aux questions faciles, tandis que les Afro-Américains, les Hispano-Américains et les Américains d’origine asiatique obtiennent de meilleurs résultats aux questions difficiles (Freedle, 2002). Bien que ces différences ne soient pas importantes, elles peuvent influencer les résultats des tests. Les chercheurs pensent que les questions faciles impliquant des mots utilisés dans la conversation quotidienne peuvent avoir des significations subtilement différentes dans différentes sous-cultures, alors que les mots difficiles (par exemple véhémence, flagornerie) ne sont pas utilisés dans toutes les conversations et n’ont donc pas ces variations de signification. Le format du test peut également influencer les performances. Les femmes obtiennent généralement de meilleurs résultats aux questions à développement et lorsque le SAT a récemment ajouté une composante à développement, les résultats verbaux globaux des femmes au SAT se sont améliorés par rapport aux hommes (Hoover, 2006).

Validité prédictive

Les tests standardisés sont utilisés parmi d’autres critères pour déterminer qui sera admis dans les collèges sélectifs. Cette pratique est justifiée par des preuves de validité prédictive – c’est-à-dire que les scores à l’ACT ou au SAT sont utilisés pour prédire les notes de première année de collège. Des études récentes ont démontré que les prédictions pour les étudiants noirs et latinos sont moins précises que pour les étudiants blancs et que les prédicteurs pour les étudiantes sont moins précis que pour les étudiants (Young, 2004). Cependant, et c’est peut-être surprenant, les résultats des tests ont tendance à prédire un peu trop la réussite à l’université des étudiants noirs et latinos, c’est-à-dire que ces étudiants sont susceptibles d’obtenir des moyennes pondérées inférieures à celles prédites par leurs résultats aux tests. En revanche, les résultats des tests tendent à sous-estimer légèrement la réussite des étudiantes, c’est-à-dire que ces étudiantes sont susceptibles d’obtenir des moyennes pondérées plus élevées en première année que celles prédites par leurs résultats aux tests. Les chercheurs ne savent pas exactement pourquoi il existe des différences dans la précision avec laquelle le test SAT et le test ACT prédisent les notes de première année.

Menace du stéréotype

Les groupes qui sont stéréotypés négativement dans un certain domaine, comme les performances des femmes en mathématiques, sont en danger de menace du stéréotype, c’est-à-dire les préoccupations que les autres les verront à travers la lentille négative ou stéréotypée (Aronson & Steele, 2005). Des études ont montré que les performances aux tests des groupes stéréotypés (par exemple, les Afro-Américains, les Latinos, les femmes) diminuent lorsqu’on souligne à ceux qui passent le test que (a) le test est à enjeux élevés, qu’il mesure l’intelligence ou les mathématiques et (b) qu’on leur rappelle leur ethnicité, leur race ou leur sexe (par exemple, en leur demandant avant le test de remplir un bref questionnaire démographique). Même si les individus se croient compétents, la menace des stéréotypes peut réduire la capacité de la mémoire de travail parce que les individus essaient de supprimer les stéréotypes négatifs. La menace du stéréotype semble particulièrement forte pour les personnes qui souhaitent obtenir de bons résultats. Les résultats aux tests standardisés des individus appartenant à des groupes stéréotypés peuvent sous-estimer de manière significative leur compétence réelle dans des situations de test à faible enjeu.

Les enseignants enseignent-ils en fonction des tests ?

Il existe des preuves que les écoles et les enseignants ajustent le programme d’études de manière à ce qu’il reflète ce qui figure dans les tests et prépare également les élèves au format et aux types d’items du test. Plusieurs enquêtes menées auprès des enseignants de l’école primaire ont indiqué que l’on consacrait plus de temps aux mathématiques et à la lecture et moins aux études sociales et aux sciences en 2004 qu’en 1990 (Jerald, 2006). Les directeurs d’écoles à fort taux d’inscription de minorités dans quatre États ont indiqué en 2003 qu’ils avaient réduit le temps consacré aux arts. Des recherches récentes en sciences cognitives suggèrent que la compréhension de la lecture dans une matière (par exemple, les sciences ou les études sociales) exige que les élèves comprennent beaucoup de vocabulaire et de connaissances de base dans cette matière (Recht & Leslie, 1988). Cela signifie que même si les élèves acquièrent de bonnes compétences en lecture, ils trouveront difficile l’apprentissage des sciences et des études sociales si peu de temps a été consacré à ces matières.

Passer un test dont le format n’est pas familier peut être difficile ; les enseignants aident donc les élèves à se préparer à des formats et des items de test spécifiques (par exemple, les doubles négations dans les items à choix multiples ; la réponse construite). Plus haut dans ce chapitre, Erin, une enseignante de collège, et le Dr Mucci, directeur d’école, ont décrit l’importance accordée à la préparation aux tests dans leurs écoles. On s’inquiète de plus en plus du fait que la quantité de préparation aux tests qui a lieu actuellement dans les écoles est excessive et que les élèves ne sont pas éduqués mais formés pour passer des tests (Popham, 2004).

Les élèves et les éducateurs trichent-ils ?

Il est difficile d’obtenir de bonnes données sur l’ampleur de la tricherie, mais nous savons que les élèves qui passent des tests trichent et que d’autres, y compris les administrateurs de tests, les aident à tricher (Cizek, 2003 ; Popham 2006). Les mesures visant à prévenir la tricherie par les élèves comprennent la protection de la sécurité des tests, l’assurance que les élèves comprennent les procédures d’administration, l’interdiction pour les élèves d’apporter leurs notes ou des appareils électroniques non approuvés ainsi que de regarder les réponses des autres. Certains enseignants et directeurs d’école ont été surpris en train d’utiliser des pratiques de préparation de tests contraires à l’éthique, par exemple en donnant aux élèves des éléments de test réels juste avant les tests, en accordant aux élèves plus de temps que prévu, en répondant aux questions des élèves sur les éléments de test et en modifiant les réponses des élèves (Popham, 2006). Au Texas, les préoccupations relatives à la tricherie ont conduit à la création, en août 2006, d’un groupe de travail indépendant composé de 15 membres du personnel de la Texas Education Agency chargés d’enquêter sur les irrégularités des tests. (Jacobson, 2006). Bien que la pression exercée sur les écoles et les enseignants pour que leurs élèves obtiennent de bons résultats soit importante, ces pratiques sont clairement contraires à l’éthique et ont conduit le personnel scolaire à être licencié (Cizek, 2003).

Aronson, J., & Steele, C. M. (2005). Les stéréotypes et la fragilité de la compétence académique, la motivation et le concept de soi. Dans A. J. Elliott & C. S. Dweck (Eds.). Handbook of competence and motivation. (pp.436-456) Guilford Publications, New York.

Cizek, G. J. (2003). Détecter et prévenir la tricherie en classe : Promouvoir l’intégrité dans l’évaluation. Corwin Press, Thousand Oaks, CA.

Freedle, R. O. (2003). Corriger le biais ethnique et de classe sociale du SAT : Une méthode pour réestimer les scores du SAT. Harvard Educational Review, 73(1), 1-42.

Hoover, E. (2006, 21 octobre). Les scores du SAT connaissent la plus forte baisse en 31 ans. Chronicle of Higher Education, 53(10), A1.

Jacobson, L. (2006). Probing Test irregularities : Le Texas lance une enquête sur la tricherie aux examens. Education Week, 28(1), 28

Jerald, C. D (2006, août).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC : The Center for Comprehensive School Reform and Improvement. Consulté le 21 novembre 2006 à l’adresse www.centerforcsri.org/

Popham, W. J. (2004). Les écoles « défaillantes » d’Amérique. Comment les parents et les enseignants peuvent copier avec No Child Left Behind. New York : Routledge Falmer.

Popham, W. J. (2006). Tricherie des éducateurs sur les tests No Child Left Behind. Educational Week, 25(32) 32-33.

Recht, D. R. &Leslie, L. (1988). Effet des connaissances antérieures sur la mémoire des textes des bons et mauvais lecteurs. Journal of Educational Psychology 80, 16-20.

Young, J. W. (2004). Validité et prédiction différentielles : Différences de race et de sexe dans les tests d’admission au collège. Dans R. Zwick (Ed). Rethinking the SAT : The future of standardized testing in university admissions. New York (pp. 289-301). Routledge Falmer.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.