統計学や統計解析の分野では、外れ値をチェックする方法がある。 外れ値は、対象プロセスの位置(平均)または規模(ばらつき)の変化による結果である可能性があります。 また、外れ値は、非正規分布を持つサンプル集団や汚染された母集団のデータセットの証拠となる可能性もある。 したがって、記述統計学の基本的な考え方として、外れ値に遭遇したら、その原因や由来をさらに分析して、この値を説明しなければならない。 極端な観測値が少なくない場合、典型的な値を分析する必要がある。 四分位値では、データを歪める極端な値があるかもしれない場合、四分位範囲(IQR)を使ってデータを特徴づけることができる。四分位範囲は、範囲や標準偏差に比べて比較的頑健な統計量(「耐性」とも呼ばれることがある)である。 9192>
上記のように第1四分位と第3四分位と四分位範囲を決定した後、次の式でフェンスを計算する。5 ( I Q R ) {displaystyle {text{Lower fence}}=Q_{1}-1.5(\mathrm {IQR} )} \,}
Upper fence = Q 3 + 1.5 ( I Q R )、{displaystyle {text{Upper fence}}=Q_{3}+1.5( I Q R ){h_displaystyle {text{IQ R}=Q_{1}-1.5( I Q R )}}、
ここでQ1、Q3はそれぞれ第1、第3分位を表しています。 下の柵はデータの「下限」、上の柵は「上限」であり、これらの定義された境界の外に横たわるデータは異常値とみなすことができる。 下限フェンス以下、上限フェンス以上のものは、そのようなケースと考えることができる。 フェンスは、外れ値を定義するためのガイドラインであり、他の方法で定義することも可能である。 フェンスは、外れ値が存在する「範囲」を定義する。これは、フェンスの境界をイメージしたもので、その外側は外れ値とは対照的に「部外者」である。 フェンスの下限と上限は、外れ値とともにボックスプロットで表現されるのが一般的である。 ボックスプロットでは、垂直方向の高さのみが可視化されたデータセットに対応し、ボックスの水平方向の幅は関係ない。 ボックスプロットのフェンスの外側にある外れ値は、”x “や “o “などの任意の記号でマークすることができる。 箱ひげ図(box-and-whisker)と呼ばれることもあります。
四分位範囲と箱ひげ図の特徴を計算してデータセットから外れ値を見つけるとき、母集団が非正規であるかサンプルが汚染されている証拠として間違って見てしまうことがあるかもしれません。 しかし、この方法は母集団の正規性を判断するための仮説検定の代わりになってはならない。 外れ値の重要性は、標本サイズによって異なる。 標本が小さいと、四分位範囲が代表的に小さくなり、柵が狭くなる可能性が高くなります。 したがって、外れ値としてマークされるデータが見つかる可能性が高くなる
。