教育における標準テストの役割については、多くの人が非常に強い意見を持っています。 ある人は、それが個人の認知能力だけでなく、学校や地区の質を判断する公平な方法を提供すると信じています。 また、標準テストの点数は、気まぐれで、生徒が知っていることを表しておらず、説明責任のために使われると誤解を招くと考える人もいます。 教育心理学者やテストの専門家の多くは、微妙な見解を持っており、標準テストが生徒の成績について提供できる情報と、テスト結果の解釈や利用のされ方を区別して考えている。 この微妙な見解では、標準化テストに関連する問題の多くは、プログラムへの選抜、卒業、免許の取得を決定するために1つのテストの成績を使用したり、学校を高学力と低学力として判断するなど、利害関係の強い使用から生じるものである。 偏りにはさまざまな意味があるため、この問いは見かけよりもずっと複雑です。 日常的な偏りの意味は、これまで教育資源に乏しかった不利な立場にある生徒の潜在的な成績を予測するために標準化テストの結果を使用することの公平性に関わることが多い。 例えば、近所の学校は貧しく、家庭にも教育資源がほとんどないため、一生懸命勉強してきたものの、教育の機会が限られていた高校生ドウェインが、あるテストの点数を理由に高校卒業を拒否されるようなことがあったら、どうでしょうか。 教育資源がなかったのは本人の責任ではないし、環境を変えて(例えば大学進学など)チャンスを与えれば、成績は開花するかもしれない。 この考え方では、テストの点数は社会的不平等を反映し、恵まれない生徒を罰することができ、しばしば固定された先天的能力の反映として誤って解釈される。 研究者は通常、より専門的な方法で偏りを考慮します。ここでは、項目の内容と形式、予測の正確さ、ステレオタイプの脅威の3つの問題について議論します
項目の内容と形式。 テスト項目はあるグループにとっては他のグループよりも難しいかもしれません。 社会階層バイアスの例として、多肢選択項目で学生にフィールドという用語の意味を問うたものがある。 学生たちは、イタリック体で書かれた最初の文章を読み、それから field の意味と同じ回答を選ぶように言われました (Popham 2004, p. 24)。
- My dad’s field is computer graphics.
- The pitcher could field his position
- We prepare the field by plowing it
- The doctor examined my field of vision
- What field will you enter after college?
医者やジャーナリスト、弁護士には「分野」があるので、専門家の子どもはこの意味を理解しやすいですが、レジ係やメンテナンス係は仕事を持っているので、子どもはこの意味を知りにくいようです。 (
テスト会社は、さまざまな経歴を持つテスト開発者が項目を見直し、特定のグループがある項目を簡単または難しいと感じるかどうかを統計的に調べることによって、この種の内容の問題を最小限に抑えようとしています。 しかし、問題は存在します。SAT の口頭テストの最近の分析では、白人は簡単な問題でより良いスコアを出す傾向があるのに対し、アフリカ系アメリカ人、ヒスパニック系アメリカ人、アジア系アメリカ人は難しい問題でより良いスコアを出す傾向があると指摘されています (Freedle, 2002)。 これらの差は大きくはないものの、テストのスコアに影響を与える可能性があります。 研究者は、日常会話で使われる言葉を含む簡単な項目は、サブカルチャーによって微妙に意味が異なるのに対し、難しい言葉(例:vehemence、sycophant)は、日常会話で使われないため、こうした意味の違いが生じないと考えています。 テストの形式もテストの成績に影響を与えることがあります。 SATが最近小論文の要素を追加したとき、女性のSAT口頭の総合得点は男性に比べて向上した(Hoover, 2006)。
予測の正確さ
標準テストは、選抜大学に誰が入学するかを決めるために他の基準の中で使用されている。 この方法は、予測妥当性の証拠によって正当化される。すなわち、ACTまたはSATの得点は、大学1年目の成績を予測するために用いられるのである。 最近の研究では、黒人やラテン系の学生の予測は、白人の学生よりも精度が低く、女子学生の予測は、男子学生よりも精度が低いことが実証されている(Young, 2004)。 しかし、驚くべきことに、黒人やラテン系の学生の大学での成功は、テストの得点でやや過剰に予測される傾向がある。つまり、これらの学生は、テストの得点で予測されるよりも低い1年生の成績平均を達成する可能性が高い。 一方、女子学生は、テストの点数が大学での成功をわずかに下回る傾向がある。つまり、これらの学生は、テストの点数で予測されるよりも高い新入生の評定平均を達成する可能性が高いのである。 研究者は、SATとACTのテストが新入生の成績を正確に予測する方法に違いがある理由を明らかにしていない。
ステレオタイプの脅威
数学における女性の成績など、ある領域で否定的にステレオタイプされるグループは、ステレオタイプの脅威、つまり、否定的またはステレオタイプのレンズを通して他の人から見られる懸念がある(Aronson & Steele, 2005)という危険にさらされています。 研究では、ステレオタイプ化されたグループ(例:アフリカ系アメリカ人、ラテン系、女性)のテストの成績は、(a)テストが高い賭けであること、知能や数学を測ること、(b)自分の民族性、人種、性別を思い出させること(例:テスト前に簡単な人口統計アンケートに答えてもらうこと)がテスト受験者に強調されると低下すると示されています。 たとえ自分が有能であると信じていても、ステレオタイプの脅威は、ネガティブなステレオタイプを抑制しようとするため、ワーキングメモリの能力を低下させる可能性がある。 ステレオタイプの脅威は、良い成績を収めたいと願う個人にとって特に強いようである。
Do teachers teach to the tests?
There are evidence that schools and teachers adjust the curriculum so it reflect what is on the tests and also prepared students for the format and type of items on the test. 小学校の教師を対象としたいくつかの調査では、1990年よりも2004年の方が、数学と読解に多くの時間が費やされ、社会科と科学にはあまり時間が割かれていないことが示されている (Jerald, 2006)。 4 州の少数民族が多く在籍する学校の校長は、2003 年に、芸術に費やす時間を減らしたと報告している。 最近の認知科学の研究によると、ある科目(例えば、科学や社会科)の読解には、その科目に関する多くの語彙や背景知識を理解していることが必要であるとされている(Recht & Leslie, 1988)。 このことは、たとえ生徒が優れた読解力を身につけたとしても、これらの教科にほとんど時間が割かれていなければ、科学や社会科の学習が困難であることを意味する。
慣れない形式のテストを受けることは難しいので、教師は生徒が特定のテスト形式や項目(たとえば、複数選択項目における二重否定、構成的回答など)に備えることができるよう支援する。 この章の前半で、中学校の教師であるErinと校長のMucci先生が、それぞれの学校におけるテスト準備の重視について述べています。 現在、学校で行われているテスト対策の量は過剰であり、生徒は教育を受けているのではなく、テストを行うための訓練を受けているという懸念が高まっています (Popham, 2004)。
生徒や教育者がカンニングをしているのか
カンニングがどれほど広まっているかについての良いデータを得ることは困難ですが、テストを受ける生徒がカンニングをしており、テスト管理者を含む他の者がカンニングを助けているということはわかっています (Cizek, 2003; Popham, 2006)。 生徒による不正行為を防止するための対策としては、テストの安全性を守ること、生徒に試験実施手順を理解させること、生徒がノートや許可されていない電子機器を持ち込んだり、互いの答案を見たりすることを防止すること、などが挙げられます。 一部の教師や校長は、試験の直前に実際の試験問題を生徒に渡したり、許可されている以上の時間を生徒に与えたり、試験問題についての生徒の質問に答えたり、生徒の答えを実際に変えたりするなど、倫理に反する試験準備を行ったことが摘発されています(Popham, 2006)。 テキサス州では、不正行為に関する懸念から、2006 年 8 月、テキサス州教育庁の 15 人のスタッフからなる独立したタスクフォースが設立され、テストの不正行為について調査することになった。 (Jacobson, 2006). 生徒の成績を良くしたいという学校や教師へのプレッシャーは大きいが、こうしたやり方は明らかに非倫理的であり、学校関係者が解雇される事態にもつながっている(Cizek, 2003)。 ステレオタイプと学力・意欲・自己概念のもろさ。 A. J. エリオット & C. S. ドウェック (Eds.) による。 コンピテンスと動機づけのハンドブック. (pp.436-456) Guilford Publications, New York.
Cizek, G. J. (2003). 教室での不正行為の検出と防止。 評価における誠実さを促進する。 コーウィン・プレス、サウザンド・オークス、カリフォルニア州。
Freedle, R. O. (2003). SAT の民族的・社会階級的偏向を修正する。 SATのスコアを再推定するための方法。 ハーバード・エデュケーショナル・レビュー』73(1), 1-42.
Hoover, E. (2006, 10月 21). SATのスコアは過去31年間で最大の落ち込みを見せた。 クロニクル・オブ・ハイヤー・エデュケーション, 53(10), A1.
Jacobson, L. (2006). テストの不正を探る。 テキサス州は試験での不正行為について調査を開始した。 Education Week, 28(1), 28
Jerald, C. D (2006,August).The Hidden costs of curriculum narrowing. Issue Brief, Washington DC: The Center for Comprehensive School Reform and Improvement(包括的学校改革・改善センター)。 Accessed November 21, 2006 from www.centerforcsri.org/
Popham, W. J. (2004). アメリカの「落ちこぼれ」学校。 アメリカの「落ちこぼれ」学校。親と教師は「落ちこぼれ防止教育法」をどうすれば真似できるか。 New York: ラウトレッジ・ファルマー.
.
Popham, W. J. (2006)。 No Child Left Behind テストにおける教育者の不正行為。
Recht, D. R. &Leslie, L. (1988). 読解の上手な人と下手な人の文章の記憶に対する予備知識の効果。 Journal of Educational Psychology 80, 16-20.
Young, J. W. (2004). 差異的妥当性と予測. 大学入学試験における人種と性差. R. Zwick (Ed)にて。 Rethinking the SAT: 大学入試における標準学力試験の将来. New York (pp. 289-301). Routledge Falmer.