

Sponsored Link
前回のカテゴリーデータと単純集計表では、カテゴリーデータについて見ました。今回は数量データについてもう少し深掘りし、度数分布表について見ていきたいと思います。

前回では、当サイトについてアンケートをとった例についてお話ししました。そのアンケートの項目に私が皆様に「身長はどれくらいですか?」と質問したところ以下のようなデータが得られたとしましょう。

この数字を見て何かわかることはあるでしょうか?
おそらく私を含めて多くの人は、「数字があるなぁ」くらいにしか思わないと思います(笑)そして実際に様々な身長の数字をとっていることくらいはわかります。この様々な数字をとることを統計学では分布すると言います。つまり、今回の身長の例を統計学では「身長は分布する」と表現します。
この分布している数字ですが、なんらかの特徴をもって分布していますが、先ほどもお話ししたように普通の人であればただの数字にしか見えません。そこで統計学では分布の特徴を見出すために整理整頓をしていき、意味のあるデータだけを抽出していきます。
整理整頓して直感的にわかりやすくするにはグラフ化するのがわかりやすいですね。そのため、グラフ化するために以下の手順で準備を行います。
Sponsored Link
Sponsored Link
まず各身長について区切りをつけていきます。数字を見たときに一番大きい身長は170、一番小さい身長は141です。全ての身長はこの範囲に収まることがわかります。
次に141〜170が収まるよう、区切りのいい5cmきざみで分類していきます。つまり
このようにわけます。この区切りを統計学では階級と言います。
先ほど階級を作りましたが、その真ん中の値を階級値と呼びます。166、167、168、169、170では真ん中の数字は168となります。これを全ての階級で行うと
となります。
各階級にあるデータの数を度数と言います。166〜170では、3個この中に当てはまる数字があるので、度数は3となります。これを全ての階級で行うと
となります。
この度数を上から数えたものを累積度数と言い、最後の166〜170までやると当然全データの40となります。
度数を数えることで、今回のデータは156〜160に身長が集まっていることがわかりますね。
各度数を全データで割ったものを相対度数と言います。166〜170では、度数が3ありました。全データ数は40なので、これで割ると3÷40=0.075となります。これを全ての階級で行うと
となります。
相対度数を出すことで、それぞれの度数が何%占めているかわかります。例えば、156〜160では先ほどざっくりと数が多いことは度数からわかりましたが、相対度数が0.375なので、37.5%占めていることがわかります。
補足ですが統計のテストの時には、間違い確認として、相対度数の合計値が1となることを念のため確認しておきましょう。

このようにして、まとめたものを度数分布表と言います。度数分布表を作ることで、元の40個がどのようなデータであったかがわからなくなってしまいますが、代わりに始めにわからなかった分布の特徴を見ることができます。
例えば、すでに説明済みですが、156〜160にデータが集まっている。また156〜160を起点にして身長が低い方にも高い方にも左右対称にデータが分布している。などが度数分布表から読み取れます。
つまり今回のはじめのデータから度数分布表にする作業を会話に置き換えると、はじめの40個のデータは会話の全てとなります。それに対して、度数分布表は会話のまとめということができます。