度数分布表から平均値を求めるのは高校数学の数学1におけるデータの分析において基礎中の基礎なので、必ずできるようにしておきましょう。
度数分布表の平均値の求め方はそこまで難しくないのでご安心ください。
後ほど詳しく解説しますが、度数分布表で平均値を求めるときは一般的な平均値の求め方とは違って、階級値を利用します。
本記事では早稲田大学教育学部数学科を卒業した筆者が度数分布表の平均値の求め方やなぜ階級値を利用するのか?などについて、例題を使いながらわかりやすく解説していきます。
数学やデータの分析が苦手な人でも理解できるように解説していくので、ぜひ最後までご覧ください。
度数分布表の平均値の求め方
度数分布表の平均値の求め方は簡単で、以下の3ステップとなります。
- 各階級の階級値を求める
- 各階級の階級値×度数を求める
- 階級値×度数の総和を度数の総和で割る
言葉だけだとわかりにくいので例を使って解説していきます。
※階級や度数の意味がわからない人は度数分布表とは何かについて解説した記事をご覧ください。
各階級の階級値を求める
以下のように、あるグループの男性の身長の度数分布票を使って、このグループの男性の身長の平均値を求めてみましょう。
※「階級値」と「階級値×度数」の列はこれから求めるので空白にしています。
階級[cm] | 階級値[cm] | 度数[人] | 階級値×度数[cm] |
---|---|---|---|
145〜150 | 4 | ||
150〜155 | 5 | ||
155〜160 | 13 | ||
160〜165 | 15 | ||
165〜170 | 19 | ||
170〜175 | 4 | ||
合計 | 60 |
度数分布表から平均値を求めるには、まずは階級値を求めます。
階級値は階級における真ん中の値のことでした。なので、145〜150の階級の階級値=(145+150)/2=147.5となります。
同様に考えて、150〜155の階級の階級値=(150+155)/2=152.5となります。
以上の考え方で、すべての階級の階級値を求めると以下のようになります。
階級[cm] | 階級値[cm] | 度数[人] | 階級値×度数[cm] |
---|---|---|---|
145〜150 | 147.5 | 4 | |
150〜155 | 152.5 | 5 | |
155〜160 | 157.5 | 13 | |
160〜165 | 162.5 | 15 | |
165〜170 | 167.5 | 19 | |
170〜175 | 172.5 | 4 | |
合計 | 60 |
各階級の階級値×度数を求める
各階級の階級値を求めることができたら、次は各階級の階級値×度数を求めましょう。
例えば145〜150の階級の階級値×度数=147.5×4=590となります。
同様に考えて、150〜155の階級の階級値×度数=152.5×5=762.5となります。
以上の考え方で、すべての階級の階級値を求めると以下のようになります。
階級[cm] | 階級値[cm] | 度数[人] | 階級値×度数[cm] |
---|---|---|---|
145〜150 | 147.5 | 4 | 147.5×4=590 |
150〜155 | 152.5 | 5 | 152.5×5=762.5 |
155〜160 | 157.5 | 13 | 157.5×13=2047.5 |
160〜165 | 162.5 | 15 | 162.5×15=2437.5 |
165〜170 | 167.5 | 19 | 167.5×19=3182.5 |
170〜175 | 172.5 | 4 | 172.5×4=690 |
合計 | 60 |
階級値×度数の総和を度数の総和で割る
いよいよ最後の手順となります。階級値×度数の総和を度数の総和で割ると平均値が求まります。
つまり、平均値=(590+762.5+2047.5+2437.5+3182.5+690)/60=161.833…[cm]となります。
以上が度数分布表の平均値の求め方となります。そこまで難しくはなかったと思います。
上記の手順をしっかり頭に入れておきましょう。
度数分布表で平均値の求めるとき、なぜ階級値を使う?
一般的に、身長の平均値を求める場合、全員の身長のデータが必要ですね。
例えば、身長が150cm、165cm、175cm、180cmの4人の身長の平均値は、
(150+165+175+180)/4=167.5
となります。
しかし、度数分布表で平均値の求めるとき、度数分布表には全員の細かい身長のデータは記載されていません。
この場合、ある階級にいる人の身長は全員同じ階級値の身長であると考えるのです。これが度数分布表で平均値の求めるときの最大の特徴となります。
例えば、先ほどの度数分布表の150〜155の階級にいる5人全員の身長は全員152.5cm(=階級値)であるとみなすのです。
平均値の弱点
平均値は便利な指標ですが、データの中に外れ値(後ほど解説)があると、その平均値の信頼度は低下してしまうという弱点があります。
例えば、以下のように、A社とB社の社員10人の1ヶ月あたりの給料を比べてみましょう。
A社の給料[万円] | 20、24、21、24、25、28、30、29、22、28 |
B社の給料[万円] | 13、14、16、18、20、12、13、15、17、113 |
- A社の給料の平均=(20+24+21+24+25+28+30+29+22+28)/10=25.1[万円]
- B社の給料の平均=(13+14+16+18+20+12+13+15+17+113)/10=25.1[万円]
となり、平均値はどちらも同じであることがわかります。
しかし、上記の表を見てもわかる通り、A社とB社は同じような給料だと思う人は少ないでしょう。
B社の給料の平均はA社と同じく25.1万円ですが、平均を超えているのは1人しかおらず、しかもその人の給料は113万円とかなり高額です。
この113万円のように、他のデータと比較したときに極端に大きいまたは小さい値のことを外れ値といいます。
この給料の例のように、外れ値を含むデータで平均値を求めても、その平均値の信頼度は低くなるので注意が必要です。
【補足】度数分布表から中央値と最頻値を求める
度数分布表を使った問題では、平均値だけでなく中央値や最頻値も求めなければならないケースも多くあります。
中央値はメジアン(median)とも呼ばれています。度数分布表における中央値はデータの個数から真ん中のデータが何番目かを求めて、その真ん中のデータが属する階級を調べます。そして、その階級の階級値が中央値となります。
詳しくは度数分布表の中央値の求め方について解説した記事をご覧ください。
また、度数分布表における最頻値は最も度数が高い階級の階級値のことです。
詳しくは度数分布表の最頻値の求め方について解説した記事をご覧ください。
平均値と中央値、最頻値の3つを合わせて代表値と呼ぶので、これも覚えておきましょう。
いかがでしたか?
今回は度数分布表の平均値の求め方について解説した後、なぜ階級値を使うのか?や平均値の弱点についても解説しました。
度数分布表の平均値の求め方はデータの分析の中でもかなり基本的なテクニックです。必ずできるようにしておきましょう!