いまさら聞けない基礎用語
資料の代表値
統計調査などによって得られた資料の分布の状態を1つの数値で表す場合があります。これを代表値といい、以下の3つがよく利用されます。
平均値(mean)
平均値。そうです、標本に含まれる資料を全て足して資料数で割った値。それです。それ以外のなにものでもありません。
スイマセン・・・。
中央値(median)
資料を大きさの順に並び替えたとき、全体の中央に位置する値。標本に含まれる資料の個数が偶数か奇数かで計算方法が異なります。 資料の個数を n とすると・・・
奇数の場合 : (n+1)/2 番目の資料の値が中央値
偶数の場合 : n/2 番目の資料の値と n/2 + 1 番目の資料の値の平均値が中央値
n = 7 だと (7+1)/2 = 4番目 の資料の値
n = 8 だと 8/2 = 4番目 と (8/2) + 1 = 5番目 の資料の値の平均値
最頻値(mode)
資料を度数分布表などの形でまとめたとき、度数の一番大きい階級の値。
資料の散布度
分布している資料のバラツキ(散布度)の程度を1つの数値で表す場合は、以下の4つがよく利用されます。
レンジ(range)
標本に含まれる資料の最大値と最小値の差。そうです。それです。たびたびスイマセン・・・。
分散(variance)
3個からなる2組の資料 a、b について、平均値を中心としたバラツキの程度を考えてみましょう。
a [ 3 , 4 , 5 ] b [ 2 , 3 , 7 ]
各資料とも平均値は 「 4 」 であり、バラツキを示す指標としては利用できません。そこで、資料の各値と平均値との差(偏差)を計算し、その合計をみてみましょう。
資料 a : ( 3 - 4 ) + ( 4 - 4 ) + ( 5 - 4 ) = 0
資料 b : ( 2 - 4 ) + ( 3 - 4 ) + ( 7 - 4 ) = 0
偏差について正負の符号を考えたため、両資料とも 「 0 」 となってしまいました。バラツキを示す指標にはなりません(ToT)
そこで、「偏差の2乗和」を考えます。
資料 a : ( 3 - 4 )^2 + ( 4 - 4 )^2 + ( 5 - 4 )^2 = 2
資料 b : ( 2 - 4 )^2 + ( 3 - 4 )^2 + ( 7 - 4 )^2 = 14
これならバラツキの程度を比較できそうですね。各資料の「偏差の2乗和」を算出し、1個あたりの平均をとったものを「分散」といいます。
資料 a の分散 : 2/3
資料 b の分散 : 14/3
バラツキの程度が大きい資料 b のほうが大きい値になりました。
標準偏差(standard deviation : SD)
分散の正の平方根。平方根・・・。おぼえてますか?平方根です。ルートってやつです。
ルート分散です。
変動係数(coefficient of variation : CV)
分散や標準偏差は平均値が大きくなるのに従い、その値も大きくなる傾向があります。
もともと平均値に大きな差があるような集団について、分散や標準偏差等の指標を用いて単純にバラツキの程度を比較するのはちょっとムズカシイです。
そこで「変動係数」。
CV = 標準偏差/平均値 (×100%)
平均値と比べた相対的なバラツキの大きさを示しています。
分散、標準偏差、変動係数ともバラツキの大きな集団ほど大きな値となります。