平均値と中央値の違い

Sponsored Link

平均値と中央値の違い

前回の度数分布表とヒストグラム、例題編までで、度数分布表やヒストグラムを極めました。

 

 

度数分布表やヒストグラムはデータの特徴をわかりやすくするのに役立ちますが、少し欠点もあります。それは度数分布表やヒストグラムを見て、データの特徴のとらえ方が人によって違うということです。前回の例題で私は

 

  • 26〜30にデータが集まっている。
  • 26〜30を起点にして年齢が低い方にも高い方にも左右対称にデータが分布している。

 

といった特徴をあげました。しかし、あなたはそうとらえないかもしれません。そうなると意見の違う私とあなたが、この度数分布表やヒストグラムを議論した時にすれ違ってしまいます。そういったときに出てくるのが統計量です。統計量とはデータの特徴を1つの数字に要約したもので、平均値、分散標準偏差などがあります。今回はそのうち平均値を見てみましょう。

 

Sponsored Link

Sponsored Link


 

平均値

平均値は皆さんが知らぬ間に習得してしまっている(?)統計量なので詳細な説明は不要かと思います。データの合計値を全データで割ったものですね。例えば前回の年齢に関するデータについて3つのチームに分けたとします。

 

 

  • Aチーム;(21+19+20+18+36+39+30+35+32+33)/10=28.3
  • Bチーム;(26+23+24+28+26+30+30+34+32+33)/10=28.6
  • Cチーム;(27+25+21+23+27+28+26+31+36+33)/10=27.7

 

といった具合に平均値を出すことができます。Aチームは最初の数名の年齢が低いので平均値も低くなるかと思いきや、Cチームよりも平均値が上ですね。また、BチームとCチームも同じくらいかと思いきや、平均値は約1も違うことがわかりますね。

 

平均値はデータが広がって存在している中から1点全データを代表する数値として選び出したものです。そのためデータたちは平均値の近くに分布しているし、多く現れるデータはそれだけ平均値に大きな影響を与えることもわかります。

 

今回出したいわゆる平均値は、算術平均や相加平均と呼ばれるもので、その他にも幾何平均(相乗平均)や二乗平均、調和平均といった様々な平均があり、用途によって使い分けられます。とりあえず今回は従来の平均値がわかっていればOKです。

 

中央値

平均値に似た言葉に中央値がありますが違います。中央値とは、データを小さい順に並べたときに真ん中にくる値のことで、データの個数が奇数ならばちょうど真ん中のデータが中央値、偶数の場合は真ん中の値2つの平均が中央値となります。早速、先ほどの3チームの中央値を出してみましょう。

 

まず小さい順から並び替えます。

 

  • Aチーム;18、19、20、21、30、32、33、35、36、39
  • Bチーム;23、24、26、26、28、30、30、32、33、34
  • Cチーム;21、23、25、26、27、27、28、31、33、36

 

今回は各チームのデータが10個で偶数なので真ん中の2つの平均値が中央値となるので

 

  • Aチーム;(30+32)/2=31
  • Bチーム;(28+30)/2=29
  • Cチーム;(27+27)/2=27

 

なんと平均値ではAチームよりBチームの方が上でしたが、中央値ではBチームよりAチームの方が上でしたね。

 

Aチームのようにデータの中に異様に大きいものや小さいものがある場合、中央値を求めるとよい場合もあります

 

まとめ

  • 平均値はデータの合計値を全データで割ったもの
  • 中央値はデータを小さい順から並べたときに真ん中にくるもの

就職や転職でお悩みの方はコチラ!私はここで年収120万円上がりました

Sponsored Link

平均値と中央値の違い 関連ページ

母集団と標本
統計学とは、簡単に言うと標本の情報から母集団の状況を推測する学問です。母集団とは本来調査するべき全員を指し、その一部を標本ということができます。
数量データとカテゴリーデータ
統計学では、目盛が等間隔で測れるデータを数量データと言います。目盛が等間隔ではなく測れないものをカテゴリーデータと言います。
カテゴリーデータと単純集計表
カテゴリーデータをまとめたものは単純集計表と呼ばれることがあります。単純集計表の作り方は、カテゴリーデータの各項目を数えて、割合を出すことで作られます。
度数分布表の作り方、基礎編
データから度数分布表の作り方は、最大値と最小値を把握する、階級を決める、階級値を決める、度数を数える、相対度数を出すというように行います。
ヒストグラムの作り方、基礎編
ヒストグラムとはいわゆる棒グラフのことで、横軸は階級値、縦軸は度数(相対度数)などにより描かれます。度数分布表やヒストグラムを作ることで、より直感的にデータの特徴を感じることができます
度数分布表とヒストグラム、例題編
今まで見てきた度数分布表とヒストグラムの作り方をもとに、例題を交えてさらに理解できるようにします。度数分布表とヒストグラムを慣れるまで繰り返しましょう。
分散とは?
平均値のみではデータの散らばりの判断がつかないので、分散を知る必要があります。分散は偏差の二乗の合計値を全データで割って求めることができます。
標準偏差、基礎編
分散の欠点を解消するために√をとったものが標準偏差であり統計学ではかなり重要です。標準偏差は0であればデータが全く散らばっていなく、大きくなるほど散らばっていることを示しています。
標準偏差、例題編
標準偏差の求め方は、平均値を出す、偏差を出す、分散を出す、標準偏差を出すという手順で出すことができます。薬学部において標準偏差を出すことができればかなりの進歩です。
統計学で偏差値を考える
CBTや国家試験の模試を行うと、偏差値が出てきます。統計学の平均値や標準偏差の知識を用いることで、テストの偏差値や1点の重みがわかります。
基準値と偏差値
偏差値は基準値×10+50で出すことができます。偏差値は基準値をもとにして出されるので、満点の点数が違うものや、単位が違うものも比較できます。
標準偏差を用いて、データの特殊性を評価する
標準偏差1個以内にあるものは全体の70%を占め、月並みなデータですが、2個以上離れているデータは正規分布する場合前回の5%しか存在せず、かなり特殊なデータと言える。
データに一定数を加えた時の平均値や標準偏差への影響
データに一定数を加えて加工すると平均値のみ変化して標準偏差には影響を与えません。これはヒストグラムがただ横にスライドするだけと考えるとわかりやすいでしょう。
データに一定数をかけた時の平均値や標準偏差への影響
データに一定数をかけた場合、平均値も標準偏差もかけた数だけ増えます。つまり没問が出た場合、標準偏差にも影響が出てしまうため得点を二倍にしてはいけません。
正規分布の式とグラフ
ヒストグラムの階級を限りなく狭めていくと曲線になっていき、その曲線の式を確率密度関数といいます。正規分布は確率密度関数の1つで左右対称の山のようなグラフとなります。
標準正規分布と性質
平均が0で標準偏差が1の時は、xは標準正規分布に従います。正規分布の特性としてμ±σの範囲のデータの相対度数は約70%がこの中に入り、μ±2σの範囲のデータの相対度数は約95%がこの中に入ります。
標準正規分布の95%予言的中区間
標準正規分布は無限の数字をとる可能性がありますが、その性質を利用することで次に出てくるデータを推測することができます。標準正規分布の95%予言的中区間は−1.96〜+1.96です。
正規分布の95%予言的中区間と例題
標準正規分布のデータに一定数σをかけて、さらに一定数μを足して加工するため、正規分布の95%予言的中区間は、μ−1.96σ〜μ+1.96σです。
標準正規分布表、面積と確率
標準正規分布表は、横軸の値と確率密度関数のグラフで囲まれる面積がどれくらい占めているのかを表しています。またこの面積は確率と等しくなります。
データから母集団を推定する方法
正規分布の95%予言的中区間を使うことで、データから母集団を推定することができます。この時に、仮説が妥当ではない場合は仮説を棄却すると統計学では言います。
95%信頼区間とは
95%信頼区間とは様々な観測値から同じ方法で区間推定をして、そのうち95%は正しい母数を含んでいるものを言います。−1.96≦(N−μ)/σ≦+1.96で95%信頼区間は求めます
無作為抽出の仮定と母平均
無作為抽出の仮定を用いると、階級値×相対度数の合計=平均値をあてはめることができ、ここから出した平均値を母平均といいます。
母標準偏差の出し方
度数分布表から母分散を出す場合、(偏差の二乗×相対度数)の合計で出す必要があります。また母分散に√(ルート)をとったものが母標準偏差です。
標本平均とは
1つの母集団からn個のデータを観測して標本平均を作ると、nが大きいほど標本平均は母平均に近い数値をとる可能性が高くなります。
正規分布している母集団からの標本平均における95%予言的中区間
母集団が正規分布している場合は、そこから標本平均を作った場合も正規分布します。正規分布している母集団からの標本平均における95%予言的中区間はμ−1.96σ/√n〜μ+1.96σ/√nです。
標本平均から母集団の母平均を推定する
観測データから母集団の母平均μを推測する場合は、95$信頼区間を利用して、標本平均が予言の範囲に入るような母平均を持つ母集団のみ妥当なものとして残す
標本分散の性質
標本分散={(偏差1)^2+(偏差2)^2+・・・・+(偏差n)^2}/nで表されます。分子も分母も必ずプラスになるため、標本分散は必ずプラスとなり正規分布しなくなります。
カイ二乗分布とは?自由度とヒストグラム
標本分散はカイ二乗分布となり自由度は、標本数を表します。カイ二乗分布のヒストグラムは自由度によって形が変化していきます。
カイ二乗分布表の読み方と例題
カイ二乗分布表は標準正規分布表とは異なり、横軸以上の面積が占める割合を表しています。カイ二乗分布表の読み方と例題をまとめてみました。

 
HOME プロフィール お問い合わせ