

Sponsored Link
今まで学んできた統計分析の方法は、1つの変数が単独で分布していました。しかし、世の中の自然現象や社会現象には2つの変数(現象)が関連して変化することがあります。例えば、「揚げ物を毎日たくさん食べる人は、脂質異常症になりやすい」だとか、「タバコを毎日吸う人は、肺がんになりやすい」など様々な現象があります。これを調べることを相関分析と呼びます。今回は相関分析を見ていきます。

データの種類には、数量データとカテゴリーデータがありました。相関分析は2つの変数の関連性を調べるので、以下の3通りが考えられます。
これらがどのように関連しているのかを調べるにあたって、グラフや関連具合を示す指標の値を求めます。今回は、一番上の数量データと数量データの組み合わせを見てみます。
では、ここで2つ例題です。
年齢と血圧の関連性を調べるために10人にアンケートをとり、以下の値が得られた。横軸を年齢、縦軸を血圧として点グラフを作れ
以下のような点グラフができたと思います。

このグラフを見てざっくりではありますが、グラフは右肩上がりで年齢が上がるにつれて血圧も上がっているというのが読み取れると思います。では続けて例題2です。
Sponsored Link
Sponsored Link
例題1のデータにおける単相関係数を求めよ
冒頭で関連性を調べるにあたって、グラフや関連具合を示す指標の値を求めるという話をしました。例題1では年齢が血圧に関連しているというのはなんとなくわかりましたが、それを具体的な数字として調べるのが例題2となります。今回のように数量データと数量データの組み合わせにおける指標を単相関係数と言い、以下の式で求められます。
意味不明だと思うので1つずつみていきます。
まずxの平均値を出します。ここではx軸を年齢としたので、年齢の平均値を出します。
(18+24+31+60+48+22+35+41+52+30)/10=36.1
同様に、yの平均値を出します。
(111+102+134+148+155+120+126+131+138+128)/10=129.3
次に年齢の偏差を出します。
同様に血圧の偏差を出します。
xとyの積和というのは、先ほど求めたxの偏差×yの偏差の和をさします。そのため、これを求めると
xとyの積和=331.23+330.33−23.97+446.93+305.83+131.13+3.63+8.33+138.33+7.93=1679.3
xの偏差平方和とは、先ほど求めたxの偏差を二乗して足したものを言います。そのため、これを求めると
xの偏差平方和=327.61+146.41+26.01+571.21+141.61+198.81+1.21+24.01+252.81+37.21=1726.9
これを同様にyの偏差平方和も求めます。
yの偏差平方和=334.89+745.29+22.09+349.69+660.49+86.49+10.89+2.89+75.69+1.69=2290.1
よって、分母の√(xの偏差平方和×yの偏差平方和)=√(1726.9×2290.1)=1988.66
これをxとyの積和/√(xの偏差平方和×yの偏差平方和)に代入して
単相関係数=xとyの積和/√(xの偏差平方和×yの偏差平方和)=1679.3/1988.66=0.844
これが答えです。私自身そうですが、脳みそと集中力の限界なので、この0.844がどういう値なのかは次回に回します(笑)万が一計算間違っていたら、ご指摘ください。お疲れさまでした。