Sponsored Link
相関分析、単相関係数と例題
今まで学んできた統計分析の方法は、1つの変数が単独で分布していました。しかし、世の中の自然現象や社会現象には2つの変数(現象)が関連して変化することがあります。例えば、「揚げ物を毎日たくさん食べる人は、脂質異常症になりやすい」だとか、「タバコを毎日吸う人は、肺がんになりやすい」など様々な現象があります。これを調べることを相関分析と呼びます。今回は相関分析を見ていきます。
相関分析
データの種類には、数量データとカテゴリーデータがありました。相関分析は2つの変数の関連性を調べるので、以下の3通りが考えられます。
- 数量データと数量データ;例、年齢と血圧
- 数量データとカテゴリーデータ;例、血圧と職業
- カテゴリーデータとカテゴリーデータ;例、職業と血液型
これらがどのように関連しているのかを調べるにあたって、グラフや関連具合を示す指標の値を求めます。今回は、一番上の数量データと数量データの組み合わせを見てみます。
単相関係数
では、ここで2つ例題です。
例題1
年齢と血圧の関連性を調べるために10人にアンケートをとり、以下の値が得られた。横軸を年齢、縦軸を血圧として点グラフを作れ
- A;年齢18歳、血圧111
- B;年齢24歳、血圧102
- C;年齢31歳、血圧134
- D;年齢60歳、血圧148
- E;年齢48歳、血圧155
- F;年齢22歳、血圧120
- G;年齢35歳、血圧126
- H;年齢41歳、血圧131
- I;年齢52歳、血圧138
- J;年齢30歳、血圧128
以下のような点グラフができたと思います。
このグラフを見てざっくりではありますが、グラフは右肩上がりで年齢が上がるにつれて血圧も上がっているというのが読み取れると思います。では続けて例題2です。
Sponsored Link
Sponsored Link
例題2
例題1のデータにおける単相関係数を求めよ
冒頭で関連性を調べるにあたって、グラフや関連具合を示す指標の値を求めるという話をしました。例題1では年齢が血圧に関連しているというのはなんとなくわかりましたが、それを具体的な数字として調べるのが例題2となります。今回のように数量データと数量データの組み合わせにおける指標を単相関係数と言い、以下の式で求められます。
- xとyの積和/√(xの偏差平方和×yの偏差平方和)
意味不明だと思うので1つずつみていきます。
まずxの平均値を出します。ここではx軸を年齢としたので、年齢の平均値を出します。
(18+24+31+60+48+22+35+41+52+30)/10=36.1
同様に、yの平均値を出します。
(111+102+134+148+155+120+126+131+138+128)/10=129.3
次に年齢の偏差を出します。
- 18−36.1=−18.1
- 24−36.1=−12.1
- 31−36.1=−5.1
- 60−36.1=23.9
- 48−36.1=11.9
- 22−36.1=−14.1
- 35−36.1=−1.1
- 41−36.1=4.9
- 52−36.1=15.9
- 30−36.1=−6.1
同様に血圧の偏差を出します。
- 111−129.3=−18.3
- 102−129.3=−27.3
- 134−129.3=4.7
- 148−129.3=18.7
- 155−129.3=25.7
- 120−129.3=−9.3
- 126−129.3=−3.3
- 131−129.3=1.7
- 138−129.3=8.7
- 128−129.3=−1.3
xとyの積和というのは、先ほど求めたxの偏差×yの偏差の和をさします。そのため、これを求めると
- −18.1×−18.3=331.23
- −12.1×−27.3=330.33
- −5.1×4.7=−23.97
- 23.9×18.7=446.93
- 11.9×25.7=305.83
- −14.1×−9.3=131.13
- −1.1×−3.3=3.63
- 4.9×1.7=8.33
- 15.9×8.7=138.33
- −6.1×−1.3=7.93
xとyの積和=331.23+330.33−23.97+446.93+305.83+131.13+3.63+8.33+138.33+7.93=1679.3
xの偏差平方和とは、先ほど求めたxの偏差を二乗して足したものを言います。そのため、これを求めると
- −18.1×−18.1=327.61
- −12.1×−12.1=146.41
- −5.1×−5.1=26.01
- 23.9×23.9=571.21
- 11.9×11.9=141.61
- −14.1×−14.1=198.81
- −1.1×−1.1=1.21
- 4.9×4.9=24.01
- 15.9×15.9=252.81
- −6.1×−6.1=37.21
xの偏差平方和=327.61+146.41+26.01+571.21+141.61+198.81+1.21+24.01+252.81+37.21=1726.9
これを同様にyの偏差平方和も求めます。
- −18.3×−18.3=334.89
- −27.3×−27.3=745.29
- 4.7×4.7=22.09
- 18.7×18.7=349.69
- 25.7×25.7=660.49
- −9.3×−9.3=86.49
- −3.3×−3.3=10.89
- 1.7×1.7=2.89
- 8.7×8.7=75.69
- −1.3×−1.3=1.69
yの偏差平方和=334.89+745.29+22.09+349.69+660.49+86.49+10.89+2.89+75.69+1.69=2290.1
よって、分母の√(xの偏差平方和×yの偏差平方和)=√(1726.9×2290.1)=1988.66
これをxとyの積和/√(xの偏差平方和×yの偏差平方和)に代入して
単相関係数=xとyの積和/√(xの偏差平方和×yの偏差平方和)=1679.3/1988.66=0.844
これが答えです。私自身そうですが、脳みそと集中力の限界なので、この0.844がどういう値なのかは次回に回します(笑)万が一計算間違っていたら、ご指摘ください。お疲れさまでした。
まとめ
- 2つの変数の関連性を調べることを相関分析という。
- 相関分析のうち、数量データと数量データの組み合わせにおける指標を単相関係数という
相関分析、単相関係数と例題 関連ページ
- 母集団と標本
- 統計学とは、簡単に言うと標本の情報から母集団の状況を推測する学問です。母集団とは本来調査するべき全員を指し、その一部を標本ということができます。
- 数量データとカテゴリーデータ
- 統計学では、目盛が等間隔で測れるデータを数量データと言います。目盛が等間隔ではなく測れないものをカテゴリーデータと言います。
- カテゴリーデータと単純集計表
- カテゴリーデータをまとめたものは単純集計表と呼ばれることがあります。単純集計表の作り方は、カテゴリーデータの各項目を数えて、割合を出すことで作られます。
- 度数分布表の作り方、基礎編
- データから度数分布表の作り方は、最大値と最小値を把握する、階級を決める、階級値を決める、度数を数える、相対度数を出すというように行います。
- ヒストグラムの作り方、基礎編
- ヒストグラムとはいわゆる棒グラフのことで、横軸は階級値、縦軸は度数(相対度数)などにより描かれます。度数分布表やヒストグラムを作ることで、より直感的にデータの特徴を感じることができます
- 度数分布表とヒストグラム、例題編
- 今まで見てきた度数分布表とヒストグラムの作り方をもとに、例題を交えてさらに理解できるようにします。度数分布表とヒストグラムを慣れるまで繰り返しましょう。
- 平均値と中央値の違い
- 平均値とはデータの合計値を全データで割ったもので、中央値はデータを小さい順から並べたときに真ん中にくるものです。そのため平均値と中央値は違います。
- 分散とは?
- 平均値のみではデータの散らばりの判断がつかないので、分散を知る必要があります。分散は偏差の二乗の合計値を全データで割って求めることができます。
- 標準偏差、基礎編
- 分散の欠点を解消するために√をとったものが標準偏差であり統計学ではかなり重要です。標準偏差は0であればデータが全く散らばっていなく、大きくなるほど散らばっていることを示しています。
- 標準偏差、例題編
- 標準偏差の求め方は、平均値を出す、偏差を出す、分散を出す、標準偏差を出すという手順で出すことができます。薬学部において標準偏差を出すことができればかなりの進歩です。
- 統計学で偏差値を考える
- CBTや国家試験の模試を行うと、偏差値が出てきます。統計学の平均値や標準偏差の知識を用いることで、テストの偏差値や1点の重みがわかります。
- 基準値と偏差値
- 偏差値は基準値×10+50で出すことができます。偏差値は基準値をもとにして出されるので、満点の点数が違うものや、単位が違うものも比較できます。
- 標準偏差を用いて、データの特殊性を評価する
- 標準偏差1個以内にあるものは全体の70%を占め、月並みなデータですが、2個以上離れているデータは正規分布する場合前回の5%しか存在せず、かなり特殊なデータと言える。
- データに一定数を加えた時の平均値や標準偏差への影響
- データに一定数を加えて加工すると平均値のみ変化して標準偏差には影響を与えません。これはヒストグラムがただ横にスライドするだけと考えるとわかりやすいでしょう。
- データに一定数をかけた時の平均値や標準偏差への影響
- データに一定数をかけた場合、平均値も標準偏差もかけた数だけ増えます。つまり没問が出た場合、標準偏差にも影響が出てしまうため得点を二倍にしてはいけません。
- 正規分布の式とグラフ
- ヒストグラムの階級を限りなく狭めていくと曲線になっていき、その曲線の式を確率密度関数といいます。正規分布は確率密度関数の1つで左右対称の山のようなグラフとなります。
- 標準正規分布と性質
- 平均が0で標準偏差が1の時は、xは標準正規分布に従います。正規分布の特性としてμ±σの範囲のデータの相対度数は約70%がこの中に入り、μ±2σの範囲のデータの相対度数は約95%がこの中に入ります。
- 標準正規分布の95%予言的中区間
- 標準正規分布は無限の数字をとる可能性がありますが、その性質を利用することで次に出てくるデータを推測することができます。標準正規分布の95%予言的中区間は−1.96〜+1.96です。
- 正規分布の95%予言的中区間と例題
- 標準正規分布のデータに一定数σをかけて、さらに一定数μを足して加工するため、正規分布の95%予言的中区間は、μ−1.96σ〜μ+1.96σです。
- 標準正規分布表、面積と確率
- 標準正規分布表は、横軸の値と確率密度関数のグラフで囲まれる面積がどれくらい占めているのかを表しています。またこの面積は確率と等しくなります。
- データから母集団を推定する方法
- 正規分布の95%予言的中区間を使うことで、データから母集団を推定することができます。この時に、仮説が妥当ではない場合は仮説を棄却すると統計学では言います。
- 95%信頼区間とは
- 95%信頼区間とは様々な観測値から同じ方法で区間推定をして、そのうち95%は正しい母数を含んでいるものを言います。−1.96≦(N−μ)/σ≦+1.96で95%信頼区間は求めます
- 無作為抽出の仮定と母平均
- 無作為抽出の仮定を用いると、階級値×相対度数の合計=平均値をあてはめることができ、ここから出した平均値を母平均といいます。
- 母標準偏差の出し方
- 度数分布表から母分散を出す場合、(偏差の二乗×相対度数)の合計で出す必要があります。また母分散に√(ルート)をとったものが母標準偏差です。
- 標本平均とは
- 1つの母集団からn個のデータを観測して標本平均を作ると、nが大きいほど標本平均は母平均に近い数値をとる可能性が高くなります。
- 正規分布している母集団からの標本平均における95%予言的中区間
- 母集団が正規分布している場合は、そこから標本平均を作った場合も正規分布します。正規分布している母集団からの標本平均における95%予言的中区間はμ−1.96σ/√n〜μ+1.96σ/√nです。
- 標本平均から母集団の母平均を推定する
- 観測データから母集団の母平均μを推測する場合は、95$信頼区間を利用して、標本平均が予言の範囲に入るような母平均を持つ母集団のみ妥当なものとして残す
- 標本分散の性質
- 標本分散={(偏差1)^2+(偏差2)^2+・・・・+(偏差n)^2}/nで表されます。分子も分母も必ずプラスになるため、標本分散は必ずプラスとなり正規分布しなくなります。
- カイ二乗分布とは?自由度とヒストグラム
- 標本分散はカイ二乗分布となり自由度は、標本数を表します。カイ二乗分布のヒストグラムは自由度によって形が変化していきます。
- カイ二乗分布表の読み方と例題
- カイ二乗分布表は標準正規分布表とは異なり、横軸以上の面積が占める割合を表しています。カイ二乗分布表の読み方と例題をまとめてみました。
- 母分散をカイ二乗分布で推定する方法
- (標本−母平均)/母標準偏差を行うことで、標準正規分布に変換できます。つまりこの変換を行いカイ二乗分布をとることで、95%予言的中区間を利用することができます。
- (標本−標本平均)/母標準偏差の二乗の和はカイ二乗分布する
- (標本−標本平均)/母標準偏差の二乗の和は標本分散に比例するためカイ二乗分布をとります。ただし、自由度がn−1となります。
- (標本−標本平均)/母標準偏差の二乗の和の自由度が1下がる理由
- (標本−標本平均)/母標準偏差の二乗の和は元は2つだったデータが式変形することで1つに減るため、自由度が1下がったカイ二乗分布となります。
- 母平均が未知の正規母集団の区間推定の例題
- (標本−標本平均)/母標準偏差の二乗の和を出すことで母平均が未知の正規母集団を区間推定することが可能となります。それの例題となります。
- t分布と統計量Tとは?
- 統計量Tを出して、t分布がわかれば、未知の母平均を推定することができます。統計量T=(標本平均−母平均)×√(n−1)/標本標準偏差で求められます。
- t分布のヒストグラムと統計量Tの計算例題
- t分布のヒストグラムは正規分布に似たような山のようなグラフを描きます。t分布と正規分布の違いは、山のてっぺんと山の麓の高さが違います。
- t分布表の読み方
- t分布表の確率95%の数字を見て、そのプラスマイナスで挟まれる範囲の面積が95%となります。t分布は自由度が上がるにつれて正規分布に近づいていくため、自由度が∞の時の確率95%は標準正規分布と一緒の1.96となります。
- t分布を利用した未知の母平均の区間推定、例題
- 統計量Tとt分布表を用いることで、未知の母平均を推定することができます。薬学部の統計学ではt分布までできていれば、かなりのレベルまで達しています。