相関比の求め方と例題

Sponsored Link

相関比の求め方と例題

前回の正の相関と負の相関までで、単相関係数を確認しました。今回は相関比をみてみたいと思います。

 

 

相関比とは

単相関係数は、数量データと数量データの組み合わせでした。今回見る相関比は数量データとカテゴリーデータの組み合わせにおける指標を言います。早速例題を見てみましょう。

 

薬剤師を15人集めて、年齢と物理生物化学の中で好きな科目を聞いたところ以下のデータが得られた。この時の相関比を求めよ

 

  • A;24歳。物理
  • B;25歳。化学
  • C;26歳。生物
  • D;31歳。生物
  • E;32歳。生物
  • F;33歳。物理
  • G;27歳。化学
  • H;28歳。化学
  • I;29歳。物理
  • J;36歳。生物
  • K;37歳。化学
  • L;38歳。化学
  • M;45歳。生物
  • N;42歳。物理
  • O;44歳。化学

 

まずアンケート結果をグラフにすると、以下のようになります。

 

 

Sponsored Link

Sponsored Link


 

相関比は、以下のように求めることができます。

 

  • 相関比=級内変動/(級内変動+級間変動)

 

また意味不明だと思うので1つずつ見ていきます。

 

級内変動

級内変動は、各カテゴリーデータの偏差を足したものです。まず、各カテゴリーデータの平均値を出すと、

 

  • 物理;(24+33+29+42)/4=32
  • 生物;(26+31+32+36+45)/5=34
  • 化学;(25+27+28+37+38+43)/6=33

 

次に各偏差を出します。

 

  • 物理;(24−32)^2+(33−32)^2+(29−32)^2+(42−32)^2=174
  • 生物;(26−34)^2+(31−34)^2+(32−34)^2+(36−34)^2+(45−34)^2=202
  • 化学;(25−33)^2+(27−33)^2+(28−33)^2+(37−33)^2+(38−33)^2+(43−33)^2=266

 

  • 級内変動=174+202+266=642

 

級間変動

級間変動を求めるには、今回の例でいくと以下のように求められます。

 

  • 級間変動=物理のデータ数×(物理の平均値−全体の平均値)^2+生物のデータ数×(生物の平均値−全体の平均値)^2+化学のデータ数×(化学の平均値−全体の平均値)^2

 

全体の平均値が不明のため、まず求めると

 

  • 全体の平均値=(24+33+29+42+26+31+32+36+45+25+27+28+37+38+43)/15≒33(本当は四捨五入すると33.1ですが計算面倒になるので33とさせてください。)

 

  • 級間変動=4×(32−33)^2+5×(34−33)^2+6×(33−33)^2=9

 

これらを最初の相関比=級内変動/(級内変動+級間変動)に代入して

 

  • 相関比=642/(642+9)=0.99

 

これが答えです。

 

前回の単相関係数は−1〜+1の範囲でしたが、相関比は0〜+1の範囲となります。なぜなら相関比の式からもわかるように偏差の和であるため、マイナスが出てこないからです。ただ考え方は単相関係数と同じく、明確な基準はなく0に近いほど無関係で、+1に近いほど2変数が関連しているといえます。また参考程度ですが、相関比と関連性の目安は以下のように考えられています。

 

  • 0.8〜1;非常に強い関連
  • 0.5〜0.8;やや強い関連
  • 0.25〜0.5;やや弱い関連
  • 0〜0.25;非常に弱い関連(無関係)

 

よって、先ほどの例題は非常に強く関連していると言えます。ちなみに私は先ほどの3科目では化学が好きですが、皆さんはどれが好きですか?薬学部あるあるだと思いますが、おそらく物理は少ないと思います(笑)

 

まとめ

  • 数量データとカテゴリーデータの関連性の指標として、相関比がある。

就職や転職でお悩みの方はコチラ!私はここで年収120万円上がりました

Sponsored Link

相関比の求め方と例題 関連ページ

母集団と標本
統計学とは、簡単に言うと標本の情報から母集団の状況を推測する学問です。母集団とは本来調査するべき全員を指し、その一部を標本ということができます。
無作為抽出と乱数表
母集団から標本を選ぶときには、偏りがないようにする必要があります。無作為標本を作るためには乱数表を用いて無作為抽出を行います。
数量データとカテゴリーデータ
統計学では、目盛が等間隔で測れるデータを数量データと言います。目盛が等間隔ではなく測れないものをカテゴリーデータと言います。
カテゴリーデータと単純集計表
カテゴリーデータをまとめたものは単純集計表と呼ばれることがあります。単純集計表の作り方は、カテゴリーデータの各項目を数えて、割合を出すことで作られます。
Excelを用いた単純集計表と円グラフの作り方
ExcelのCOUNTIFは、検索する範囲の中で条件にあったデータの数を数えてくれる関数なので、単純集計表などを作る時に向いています。単純集計表から円グラフも簡単に作れます。
度数分布表の作り方、基礎編
データから度数分布表の作り方は、最大値と最小値を把握する、階級を決める、階級値を決める、度数を数える、相対度数を出すというように行います。
ヒストグラムの作り方、基礎編
ヒストグラムとはいわゆる棒グラフのことで、横軸は階級値、縦軸は度数(相対度数)などにより描かれます。度数分布表やヒストグラムを作ることで、より直感的にデータの特徴を感じることができます
確率分布の特徴
身の回りの様々な現象は確率分布します。確率分布のそれぞれの確率は、0〜1の間の値をとり、全て足すと、必ず1になるのが、特徴です。
確率の基本
薬学部であれば、数学の確率はやっているかとは思いますが基本の復習です。確率=ある事象が起こる度数÷考えられる全ての度数で表されます。
順列の基本
階乗はその数以下の自然数の全てをかけたものを言い、!で表されます。順列を計算するうえで階乗が使えると楽です。今回は順列の基本をまとめました。
順列の応用と組み合わせ
前回まででやった順列の応用問題の例題と組み合わせをまとめました。組み合わせと順列の違いは、順番を無視できるところが違います。
度数分布表とヒストグラム、例題編
今まで見てきた度数分布表とヒストグラムの作り方をもとに、例題を交えてさらに理解できるようにします。度数分布表とヒストグラムを慣れるまで繰り返しましょう。
度数分布表とヒストグラム、応用編
薬学部の統計学では、基本的に度数分布表やヒストグラムを作るだけでテストが終わりなことが多いです。ただそれだけだととてももったいないので度数分布表やヒストグラムから何が読み取れるのかを考える力もつけましょう。
Excelを用いた度数分布表とヒストグラムの作り方
度数分布表をExcelで作る時には、FREQUENCY関数を用います。作った度数分布表からExcelでヒストグラムも簡単に作ることができます。
平均値と中央値の違い
平均値とはデータの合計値を全データで割ったもので、中央値はデータを小さい順から並べたときに真ん中にくるものです。そのため平均値と中央値は違います。
Σ計算の基本
ある番号からある番号までの数字を足すのがΣシグマ計算です。Σシグマを使うことで長い数式の場合はかなりすっきりとして表すことができます。
Σ計算のルール
薬学部の統計学では、必要最低限のΣ計算のルールを知っておく必要があります。統計学をスムーズに行うためにもシグマ計算のルールをしっかり理解して変換できるようにしましょう。
分散とは?
平均値のみではデータの散らばりの判断がつかないので、分散を知る必要があります。分散は偏差の二乗の合計値を全データで割って求めることができます。
標準偏差、基礎編
分散の欠点を解消するために√をとったものが標準偏差であり統計学ではかなり重要です。標準偏差は0であればデータが全く散らばっていなく、大きくなるほど散らばっていることを示しています。
標準偏差、例題編
標準偏差の求め方は、平均値を出す、偏差を出す、分散を出す、標準偏差を出すという手順で出すことができます。薬学部において標準偏差を出すことができればかなりの進歩です。
標準偏差をなるべく楽に出す方法
薬学部の統計学のテストなど時間がない時には、標準偏差を素早く出すにはデータの合計値、データの二乗の合計値、平均値があれば楽に出すことができます。
Excelを用いた平均値、標準偏差、中央値の出し方
Excelで平均値を出すときにはAVERAGE、標準偏差を出すときはSTDEV.P、中央値を出すときはMEDIANを使います。STDEV.Sは標本から推測した標準偏差なのが、STDE.Pとの違いになります。
統計学で偏差値を考える
CBTや国家試験の模試を行うと、偏差値が出てきます。統計学の平均値や標準偏差の知識を用いることで、テストの偏差値や1点の重みがわかります。
基準値と偏差値
偏差値は基準値×10+50で出すことができます。偏差値は基準値をもとにして出されるので、満点の点数が違うものや、単位が違うものも比較できます。
Excelを用いた基準値と偏差値の出し方
Excelを用いて基準値を出すにはSTANDARDIZEの関数を使います。STANDARDIZEは標準化するなどの意味を持つ関数です。$はExcelにおいて固定を意味します。
標準偏差を用いて、データの特殊性を評価する
標準偏差1個以内にあるものは全体の70%を占め、月並みなデータですが、2個以上離れているデータは正規分布する場合前回の5%しか存在せず、かなり特殊なデータと言える。
データに一定数を加えた時の平均値や標準偏差への影響
データに一定数を加えて加工すると平均値のみ変化して標準偏差には影響を与えません。これはヒストグラムがただ横にスライドするだけと考えるとわかりやすいでしょう。
データに一定数をかけた時の平均値や標準偏差への影響
データに一定数をかけた場合、平均値も標準偏差もかけた数だけ増えます。つまり没問が出た場合、標準偏差にも影響が出てしまうため得点を二倍にしてはいけません。
正規分布の式とグラフ
ヒストグラムの階級を限りなく狭めていくと曲線になっていき、その曲線の式を確率密度関数といいます。正規分布は確率密度関数の1つで左右対称の山のようなグラフとなります。
標準正規分布と性質
平均が0で標準偏差が1の時は、xは標準正規分布に従います。正規分布の特性としてμ±σの範囲のデータの相対度数は約70%がこの中に入り、μ±2σの範囲のデータの相対度数は約95%がこの中に入ります。
標準正規分布の95%予言的中区間
標準正規分布は無限の数字をとる可能性がありますが、その性質を利用することで次に出てくるデータを推測することができます。標準正規分布の95%予言的中区間は−1.96〜+1.96です。
正規分布の95%予言的中区間と例題
標準正規分布のデータに一定数σをかけて、さらに一定数μを足して加工するため、正規分布の95%予言的中区間は、μ−1.96σ〜μ+1.96σです。
標準正規分布表、面積と確率
標準正規分布表は、横軸の値と確率密度関数のグラフで囲まれる面積がどれくらい占めているのかを表しています。またこの面積は確率と等しくなります。
Excelを用いた標準正規分布の面積(確率)の出し方
Excelを使った標準正規分布の面積(確率)はNORM.S.DISTで求めることができます。NORM.S.DISTはnormal standard distributionの略で標準正規分布を意味する関数です。
データから母集団を推定する方法
正規分布の95%予言的中区間を使うことで、データから母集団を推定することができます。この時に、仮説が妥当ではない場合は仮説を棄却すると統計学では言います。
95%信頼区間とは
95%信頼区間とは様々な観測値から同じ方法で区間推定をして、そのうち95%は正しい母数を含んでいるものを言います。−1.96≦(N−μ)/σ≦+1.96で95%信頼区間は求めます
無作為抽出の仮定と母平均
無作為抽出の仮定を用いると、階級値×相対度数の合計=平均値をあてはめることができ、ここから出した平均値を母平均といいます。
母標準偏差の出し方
度数分布表から母分散を出す場合、(偏差の二乗×相対度数)の合計で出す必要があります。また母分散に√(ルート)をとったものが母標準偏差です。
標本平均とは
1つの母集団からn個のデータを観測して標本平均を作ると、nが大きいほど標本平均は母平均に近い数値をとる可能性が高くなります。
正規分布している母集団からの標本平均における95%予言的中区間
母集団が正規分布している場合は、そこから標本平均を作った場合も正規分布します。正規分布している母集団からの標本平均における95%予言的中区間はμ−1.96σ/√n〜μ+1.96σ/√nです。
標本平均から母集団の母平均を推定する
観測データから母集団の母平均μを推測する場合は、95$信頼区間を利用して、標本平均が予言の範囲に入るような母平均を持つ母集団のみ妥当なものとして残す
標本分散の性質
標本分散={(偏差1)^2+(偏差2)^2+・・・・+(偏差n)^2}/nで表されます。分子も分母も必ずプラスになるため、標本分散は必ずプラスとなり正規分布しなくなります。
カイ二乗分布とは?自由度とヒストグラム
標本分散はカイ二乗分布となり自由度は、標本数を表します。カイ二乗分布のヒストグラムは自由度によって形が変化していきます。
カイ二乗分布表の読み方と例題
カイ二乗分布表は標準正規分布表とは異なり、横軸以上の面積が占める割合を表しています。カイ二乗分布表の読み方と例題をまとめてみました。
Excelを用いたカイ二乗分布の横軸の出し方
ExcelのCHISQ.INV.RT関数は、カイ二乗分布の右側の面積に該当する横軸を求められる関数です。CHISQ.INVはカイ二乗分布の左側の面積に該当する横軸を求められるのが違いです。
母分散をカイ二乗分布で推定する方法
(標本−母平均)/母標準偏差を行うことで、標準正規分布に変換できます。つまりこの変換を行いカイ二乗分布をとることで、95%予言的中区間を利用することができます。
(標本−標本平均)/母標準偏差の二乗の和はカイ二乗分布する
(標本−標本平均)/母標準偏差の二乗の和は標本分散に比例するためカイ二乗分布をとります。ただし、自由度がn−1となります。
(標本−標本平均)/母標準偏差の二乗の和の自由度が1下がる理由
(標本−標本平均)/母標準偏差の二乗の和は元は2つだったデータが式変形することで1つに減るため、自由度が1下がったカイ二乗分布となります。
母平均が未知の正規母集団の区間推定の例題
(標本−標本平均)/母標準偏差の二乗の和を出すことで母平均が未知の正規母集団を区間推定することが可能となります。それの例題となります。
t分布と統計量Tとは?
統計量Tを出して、t分布がわかれば、未知の母平均を推定することができます。統計量T=(標本平均−母平均)×√(n−1)/標本標準偏差で求められます。
t分布のヒストグラムと統計量Tの計算例題
t分布のヒストグラムは正規分布に似たような山のようなグラフを描きます。t分布と正規分布の違いは、山のてっぺんと山の麓の高さが違います。
t分布表の読み方
t分布表の確率95%の数字を見て、そのプラスマイナスで挟まれる範囲の面積が95%となります。t分布は自由度が上がるにつれて正規分布に近づいていくため、自由度が∞の時の確率95%は標準正規分布と一緒の1.96となります。
t分布を利用した未知の母平均の区間推定、例題
統計量Tとt分布表を用いることで、未知の母平均を推定することができます。薬学部の統計学ではt分布までできていれば、かなりのレベルまで達しています。
相関分析、単相関係数と例題
相関分析のうち、数量データと数量データの組み合わせにおける指標を単相関係数といいます。単相関係数の求め方を例題とともにまとめました。
Excelを用いた単相関係数の求め方
Excelで単相関係数を求める場合はCORRELを使います。データ数が増えると単相関係数などの複雑な計算の場合はExcelの方が簡単に求められます。
正の相関と負の相関
単相関係数の値がプラスの場合は正の相関がある、マイナスの場合は負の相関があると言います。単相関係数が0に近い場合は、2変数が関連していないことを意味します。
クラメールの連関係数と例題
カテゴリーデータとカテゴリーデータの関連性の指標として、クラメールの連関係数があります。クラメールの連関係数の求め方と例題についてまとめました。
独立性の検定、帰無仮説と対立仮説
検定とは母集団について立てた仮説が正しいかどうかを標本のデータから推測することを言い、帰無仮説と対立仮説をたてる必要があります。独立性の検定は、標本から母集団のクラメールの連関係数が0でないことを調べる方法をいいます。
独立性の検定の計算、例題
独立性の検定は、母集団を定義する、帰無仮説と対立仮説を決める、行う検定を選ぶ、優位水準を決める、標本データから検定統計量を求める、求めた統計量が棄却域に入っているかを確認し結論を出す、といった手順で計算される
独立性の検定におけるExcelを用いたP値の求め方
Excelを用いることで、独立性の検定におけるP値を簡単に求めることができます。優位水準よりもP値が小さければ対立仮説は正しいとします。
二項分布とは?
一回のある事象が起こる確率(p)がわかっている時、それをn回行い、そのうちx回だけその事象が起こる確率は二項分布します。二項分布の例題をまとめました。
ポアソン分布とは?
pがとても小さく、nがとても大きい時は二項分布だと計算が面倒なのでポアソン分布を用います。ポアソン分布では平均と分散が等しいのが二項分布と違います。

 
HOME プロフィール お問い合わせ