相関分析、単相関係数と例題

今まで学んできた統計分析の方法は、1つの変数が単独で分布していました。しかし、世の中の自然現象や社会現象には2つの変数(現象)が関連して変化することがあります。例えば、「揚げ物を毎日たくさん食べる人は、脂質異常症になりやすい」だとか、「タバコを毎日吸う人は、肺がんになりやすい」など様々な現象があります。これを調べることを相関分析と呼びます。今回は相関分析を見ていきます。

相関分析

データの種類には、数量データとカテゴリーデータがありました。相関分析は2つの変数の関連性を調べるので、以下の3通りが考えられます。

数量データと数量データ；例、年齢と血圧
数量データとカテゴリーデータ；例、血圧と職業
カテゴリーデータとカテゴリーデータ；例、職業と血液型

これらがどのように関連しているのかを調べるにあたって、グラフや関連具合を示す指標の値を求めます。今回は、一番上の数量データと数量データの組み合わせを見てみます。

単相関係数

では、ここで2つ例題です。

例題1

年齢と血圧の関連性を調べるために10人にアンケートをとり、以下の値が得られた。横軸を年齢、縦軸を血圧として点グラフを作れ

A；年齢18歳、血圧111
B；年齢24歳、血圧102
C；年齢31歳、血圧134
D；年齢60歳、血圧148
E；年齢48歳、血圧155
F；年齢22歳、血圧120
G；年齢35歳、血圧126
H；年齢41歳、血圧131
I；年齢52歳、血圧138
J；年齢30歳、血圧128

以下のような点グラフができたと思います。

このグラフを見てざっくりではありますが、グラフは右肩上がりで年齢が上がるにつれて血圧も上がっているというのが読み取れると思います。では続けて例題2です。

例題2

例題1のデータにおける単相関係数を求めよ

冒頭で関連性を調べるにあたって、グラフや関連具合を示す指標の値を求めるという話をしました。例題1では年齢が血圧に関連しているというのはなんとなくわかりましたが、それを具体的な数字として調べるのが例題2となります。今回のように数量データと数量データの組み合わせにおける指標を単相関係数と言い、以下の式で求められます。

xとyの積和/√(xの偏差平方和×yの偏差平方和)

意味不明だと思うので1つずつみていきます。

まずxの平均値を出します。ここではx軸を年齢としたので、年齢の平均値を出します。

(18+24+31+60+48+22+35+41+52+30)/10=36.1

同様に、yの平均値を出します。

(111+102+134+148+155+120+126+131+138+128)/10=129.3

次に年齢の偏差を出します。

18－36.1=－18.1
24－36.1=－12.1
31－36.1=－5.1
60－36.1=23.9
48－36.1=11.9
22－36.1=－14.1
35－36.1=－1.1
41－36.1=4.9
52－36.1=15.9
30－36.1=－6.1

同様に血圧の偏差を出します。

111－129.3=－18.3
102－129.3=－27.3
134－129.3=4.7
148－129.3=18.7
155－129.3=25.7
120－129.3=－9.3
126－129.3=－3.3
131－129.3=1.7
138－129.3=8.7
128－129.3=－1.3

xとyの積和というのは、先ほど求めたxの偏差×yの偏差の和をさします。そのため、これを求めると

－18.1×－18.3=331.23
－12.1×－27.3=330.33
－5.1×4.7=－23.97
23.9×18.7=446.93
11.9×25.7=305.83
－14.1×－9.3=131.13
－1.1×－3.3=3.63
4.9×1.7=8.33
15.9×8.7=138.33
－6.1×－1.3=7.93

xとyの積和=331.23+330.33－23.97+446.93+305.83+131.13+3.63+8.33+138.33+7.93=1679.3

xの偏差平方和とは、先ほど求めたxの偏差を二乗して足したものを言います。そのため、これを求めると

－18.1×－18.1=327.61
－12.1×－12.1=146.41
－5.1×－5.1=26.01
23.9×23.9=571.21
11.9×11.9=141.61
－14.1×－14.1=198.81
－1.1×－1.1=1.21
4.9×4.9=24.01
15.9×15.9=252.81
－6.1×－6.1=37.21

xの偏差平方和=327.61+146.41+26.01+571.21+141.61+198.81+1.21+24.01+252.81+37.21=1726.9

これを同様にyの偏差平方和も求めます。

－18.3×－18.3=334.89
－27.3×－27.3=745.29
4.7×4.7=22.09
18.7×18.7=349.69
25.7×25.7=660.49
－9.3×－9.3=86.49
－3.3×－3.3=10.89
1.7×1.7=2.89
8.7×8.7=75.69
－1.3×－1.3=1.69

yの偏差平方和=334.89+745.29+22.09+349.69+660.49+86.49+10.89+2.89+75.69+1.69=2290.1

よって、分母の√(xの偏差平方和×yの偏差平方和)=√(1726.9×2290.1)=1988.66

これをxとyの積和/√(xの偏差平方和×yの偏差平方和)に代入して

単相関係数=xとyの積和/√(xの偏差平方和×yの偏差平方和)=1679.3/1988.66=0.844

これが答えです。私自身そうですが、脳みそと集中力の限界なので、この0.844がどういう値なのかは次回に回します(笑)万が一計算間違っていたら、ご指摘ください。お疲れさまでした。

まとめ

2つの変数の関連性を調べることを相関分析という。
相関分析のうち、数量データと数量データの組み合わせにおける指標を単相関係数という

就職や転職でお悩みの方はコチラ！私はここで年収120万円上がりました

相関分析、単相関係数と例題