Sponsored Link
標準偏差、基礎編
前回の分散とは?では分散についてみました。分散はデータのバラつき具合がわかるという話をしましたが、少し欠点もあります。それを補うのが標準偏差です。標準偏差と言えば、統計学を代表するワードであり、統計学アレルギーの方でも何度も聞いたワードでしょう。今回は標準偏差について見ていきたいと思います。
分散の欠点
前回も平均値の欠点から入りましたが、分散にも欠点が2つあります。
第一に、バラつきを表す数値にしては大きすぎるという点です。前回の偏差の値を改めて見てみましょう。
- 21−28.3=−7.3
- 19−28.3=−9.3
- 20−28.3=−8.3
- 18−28.3=−10.3
- 36−28.3=7.7
- 39−28.3=10.7
- 30−28.3=1.7
- 35−28.3=6.7
- 32−28.3=3.7
- 33−28.3=4.7
偏差は大きくても±10の範囲で収まっています。しかし、算出した分散は57.21とかなり大きい数字となっています。
Sponsored Link
Sponsored Link
第二の欠点は単位が変わっているということです。薬学部の皆様であれば、物理や薬剤で単位をそろえることがいかに重要かということを体感していると思います。統計学も同じです。分散を求めるにあたって、年齢を二乗しているので、単位は歳の二乗となってしまっています。これは元のデータは歳であったためおかしくなってしまっていることがわかります。
これを解消するにはどうすればよいでしょうか?
二乗をもとに戻すためにルート√をとればよいのです。57.21の√をとると、7.56です。これであれば、先ほどの問題点も解消されています。このように分散の√をとったものを標準偏差と呼びます。標準偏差はstandard deviation;SDとも略されることがあり、統計学においてはかなり重要なポジションをしめています。
平均値と標準偏差
では今回の年齢におけるデータについて平均値と標準偏差を交えてまとめてみます。
平均年齢は28.3歳でしたが、それがどれくらいのバラつきがあるかがわかりません。それがわかるのが標準偏差であり、前後に約7.56歳ほど散らばっている。このように解釈できます。
標準偏差は最小値が0であり0であれば散らばりが全くない、つまり全て同じデータということができます。逆に標準偏差が大きいほどデータの散らばりが大きいといえます。
どうでしょうか?標準偏差について少し理解が進んだでしょうか?次回は標準偏差の例題編でさらに理解を深めたいと思います。
まとめ
- 分散の欠点を解消するために√をとったものが標準偏差であり統計学ではかなり重要。
標準偏差、基礎編 関連ページ
- 母集団と標本
- 統計学とは、簡単に言うと標本の情報から母集団の状況を推測する学問です。母集団とは本来調査するべき全員を指し、その一部を標本ということができます。
- 数量データとカテゴリーデータ
- 統計学では、目盛が等間隔で測れるデータを数量データと言います。目盛が等間隔ではなく測れないものをカテゴリーデータと言います。
- 度数分布表の作り方、基礎編
- データから度数分布表の作り方は、最大値と最小値を把握する、階級を決める、階級値を決める、度数を数える、相対度数を出すというように行います。
- ヒストグラムの作り方、基礎編
- ヒストグラムとはいわゆる棒グラフのことで、横軸は階級値、縦軸は度数(相対度数)などにより描かれます。度数分布表やヒストグラムを作ることで、より直感的にデータの特徴を感じることができます
- 度数分布表とヒストグラム、例題編
- 今まで見てきた度数分布表とヒストグラムの作り方をもとに、例題を交えてさらに理解できるようにします。度数分布表とヒストグラムを慣れるまで繰り返しましょう。
- 平均値と中央値の違い
- 平均値とはデータの合計値を全データで割ったもので、中央値はデータを小さい順から並べたときに真ん中にくるものです。そのため平均値と中央値は違います。
- 分散とは?
- 平均値のみではデータの散らばりの判断がつかないので、分散を知る必要があります。分散は偏差の二乗の合計値を全データで割って求めることができます。