Sponsored Link
前回の平均値と中央値の違いでは、平均値などを見ました。今回は分散について見ていきたいと思います。
平均値は広がって存在しているデータの中から1点代表する値であり、平均値の近くにデータは存在しているということを説明しました。改めて前回にやった3つのチームの平均値を見てみましょう。
Aチームに注目してみると、平均値が28.3です。Aチームの元の10個のデータを知らない人が、この平均値の28.3だけみると、Bチームのように28や29付近にデータが集まっているのか、Aチームのように20や40付近にデータが集まっているのか全く分かりません。つまり平均値はデータの中から1点代表した値ではありますが、そのデータがどれくらい広がっているかがわからないのが欠点です。
他にももう少し例を見てみましょう。
Sponsored Link
Sponsored Link
年齢ではどれくらい散らばっているかは大した影響はありませんが、皆さんの生活にかかわるものとして飛行機の時刻があります。例えば、出発する空港が同じで、同じ目的地に行く2つの航空会社があり、平均の到着時刻が次のようだったとします
これだけ見たら、どっちの航空を使っても同じのように見えます。ただ以下の情報が加えられたらどうでしょう
サービスなどの違いを抜きにして、到着時刻だけで見たら、普通の人であれば○○航空を選ぶのではないかと思います。このように平均値だけでは同じものでも、散らばり具合がわかると判断の材料になることがわかります。
では再びAチームのデータに話を戻しましょう。これらのデータがどれくらい散らばっているのかを知るには各データを平均値から引くとどれくらい離れているかがわかります。プラスの場合であれば平均値の年齢より大きく、マイナスであれば平均値の年齢より小さいことを表します。
このように各データから平均値を引いたものを偏差と呼びます。偏差はどれくらい平均値から離れているかがわかるため、偏差の平均値を出せばいいと思ったあなた、実際にやってみてください。
{(−7.3)+(−9.3)+(−8.3)+(−10.3)+7.7+10.7+1.7+6.7+3.7+4.7}/10=0
計算やらせておいてあれですが、これはどのデータでやっても全て0になってしまいます(笑)これはプラスとマイナスで相殺されてしまうので、直感的にわかると思います。
ではどのようにして偏差を出せばいいのか?マイナスがあるから打ち消してしまうので、マイナスをなくせばいい。というわけで、前回の平均値でチラッとお話をした二乗平均がここで出てきます。またそれぞれの二乗を出してみましょう。
そしてこれらの平均をとります。
このようにして、偏差の二乗の合計値をデータ数で割ったものを分散と呼びます。分散は小文字のsに二乗をつけたもので表され、Σを使って表すと以下のように表されます。
当サイトでは説明上わかりやすいように、今後も含めて1/nで表記していきますが、おそらく皆さんの教科書などは1/(n-1)となっているのではないかと思います。これを説明するのはかなり難易度が高く、大人の事情と割り切ってもらえたらと思うので、適宜皆さんの教科書にあわせてください。
そして求めた57.21だけみるとまだピンときませんが、分散はデータのばらつき具合を評価できる統計量です。そろそろおなかいっぱいだと思うので、今回はこれくらいにして次回に回します(笑)