分散とは？

分散とは？

平均値のみではデータの散らばりの判断がつかないので、分散を知る必要があります。分散は偏差の二乗の合計値を全データで割って求めることができます。

統計学のまとめ

Sponsored Link

分散とは？

前回の平均値と中央値の違いでは、平均値などを見ました。今回は分散について見ていきたいと思います。

平均値の欠点

平均値は広がって存在しているデータの中から1点代表する値であり、平均値の近くにデータは存在しているということを説明しました。改めて前回にやった3つのチームの平均値を見てみましょう。

Aチーム；(21+19+20+18+36+39+30+35+32+33)/10=28.3
Bチーム；(26+23+24+28+26+30+30+34+32+33)/10=28.6
Cチーム；(27+25+21+23+27+28+26+31+36+33)/10=27.7

Aチームに注目してみると、平均値が28.3です。Aチームの元の10個のデータを知らない人が、この平均値の28.3だけみると、Bチームのように28や29付近にデータが集まっているのか、Aチームのように20や40付近にデータが集まっているのか全く分かりません。つまり平均値はデータの中から1点代表した値ではありますが、そのデータがどれくらい広がっているかがわからないのが欠点です。

他にももう少し例を見てみましょう。

Sponsored Link

Sponsored Link

年齢ではどれくらい散らばっているかは大した影響はありませんが、皆さんの生活にかかわるものとして飛行機の時刻があります。例えば、出発する空港が同じで、同じ目的地に行く2つの航空会社があり、平均の到着時刻が次のようだったとします

○○航空；到着平均時刻7時
△△航空；到着平均時刻7時

これだけ見たら、どっちの航空を使っても同じのように見えます。ただ以下の情報が加えられたらどうでしょう

○○航空；到着平均時刻7時、到着時間±30分
△△航空；到着平均時刻7時、到着時刻±2時間

サービスなどの違いを抜きにして、到着時刻だけで見たら、普通の人であれば○○航空を選ぶのではないかと思います。このように平均値だけでは同じものでも、散らばり具合がわかると判断の材料になることがわかります。

分散とは

では再びAチームのデータに話を戻しましょう。これらのデータがどれくらい散らばっているのかを知るには各データを平均値から引くとどれくらい離れているかがわかります。プラスの場合であれば平均値の年齢より大きく、マイナスであれば平均値の年齢より小さいことを表します。

21－28.3=－7.3
19－28.3=－9.3
20－28.3=－8.3
18－28.3=－10.3
36－28.3=7.7
39－28.3=10.7
30－28.3=1.7
35－28.3=6.7
32－28.3=3.7
33－28.3=4.7

このように各データから平均値を引いたものを偏差と呼びます。偏差はどれくらい平均値から離れているかがわかるため、偏差の平均値を出せばいいと思ったあなた、実際にやってみてください。

｛(－7.3)+(－9.3)+(－8.3)+(－10.3)+7.7+10.7+1.7+6.7+3.7+4.7｝/10=0

計算やらせておいてあれですが、これはどのデータでやっても全て0になってしまいます(笑)これはプラスとマイナスで相殺されてしまうので、直感的にわかると思います。

ではどのようにして偏差を出せばいいのか？マイナスがあるから打ち消してしまうので、マイナスをなくせばいい。というわけで、前回の平均値でチラッとお話をした二乗平均がここで出てきます。またそれぞれの二乗を出してみましょう。

(－7.3)；53.29
(－9.3)；86.49
(－8.3)；68.89
(－10.3)；106.09
7.7；59.29
10.7；114.49
1.7；2.89
6.7；44.89
3.7；13.69
4.7；22.09

そしてこれらの平均をとります。

(53.29+86.49+68.89+106.09+59.29+114.49+2.89+44.89+13.69+22.09)/10=57.21

このようにして、偏差の二乗の合計値をデータ数で割ったものを分散と呼びます。分散は小文字のsに二乗をつけたもので表され、Σを使って表すと以下のように表されます。

当サイトでは説明上わかりやすいように、今後も含めて1/nで表記していきますが、おそらく皆さんの教科書などは1/(n-1)となっているのではないかと思います。これを説明するのはかなり難易度が高く、大人の事情と割り切ってもらえたらと思うので、適宜皆さんの教科書にあわせてください。

そして求めた57.21だけみるとまだピンときませんが、分散はデータのばらつき具合を評価できる統計量です。そろそろおなかいっぱいだと思うので、今回はこれくらいにして次回に回します(笑)

まとめ

平均値のみではデータの散らばりの判断がつかないので、分散を知る必要がある

就職や転職でお悩みの方はコチラ！私はここで年収120万円上がりました

Sponsored Link

分散とは？関連ページ

母集団と標本

統計学とは、簡単に言うと標本の情報から母集団の状況を推測する学問です。母集団とは本来調査するべき全員を指し、その一部を標本ということができます。
無作為抽出と乱数表

母集団から標本を選ぶときには、偏りがないようにする必要があります。無作為標本を作るためには乱数表を用いて無作為抽出を行います。
数量データとカテゴリーデータ

統計学では、目盛が等間隔で測れるデータを数量データと言います。目盛が等間隔ではなく測れないものをカテゴリーデータと言います。
カテゴリーデータと単純集計表

カテゴリーデータをまとめたものは単純集計表と呼ばれることがあります。単純集計表の作り方は、カテゴリーデータの各項目を数えて、割合を出すことで作られます。
Excelを用いた単純集計表と円グラフの作り方

ExcelのCOUNTIFは、検索する範囲の中で条件にあったデータの数を数えてくれる関数なので、単純集計表などを作る時に向いています。単純集計表から円グラフも簡単に作れます。
度数分布表の作り方、基礎編

データから度数分布表の作り方は、最大値と最小値を把握する、階級を決める、階級値を決める、度数を数える、相対度数を出すというように行います。
ヒストグラムの作り方、基礎編

ヒストグラムとはいわゆる棒グラフのことで、横軸は階級値、縦軸は度数(相対度数)などにより描かれます。度数分布表やヒストグラムを作ることで、より直感的にデータの特徴を感じることができます
確率分布の特徴

身の回りの様々な現象は確率分布します。確率分布のそれぞれの確率は、0～1の間の値をとり、全て足すと、必ず1になるのが、特徴です。
確率の基本

薬学部であれば、数学の確率はやっているかとは思いますが基本の復習です。確率=ある事象が起こる度数÷考えられる全ての度数で表されます。
順列の基本

階乗はその数以下の自然数の全てをかけたものを言い、!で表されます。順列を計算するうえで階乗が使えると楽です。今回は順列の基本をまとめました。
順列の応用と組み合わせ

前回まででやった順列の応用問題の例題と組み合わせをまとめました。組み合わせと順列の違いは、順番を無視できるところが違います。
度数分布表とヒストグラム、例題編

今まで見てきた度数分布表とヒストグラムの作り方をもとに、例題を交えてさらに理解できるようにします。度数分布表とヒストグラムを慣れるまで繰り返しましょう。