度数分布表から中央値を求める方法はしっかり理解できていますでしょうか?
中央値はデータの個数(=度数の総数)が奇数個か偶数個かで求め方が異なるので注意が必要です。
そこで今回は早稲田大学教育学部数学科を卒業した筆者が度数分布表から中央値を求める方法について例題を使いながらわかりやすく解説していきます。
また、中央値を求めるメリットについても解説しているので、ぜひ最後までお読みください。
中央値とは?求め方のおさらい
まずは中央値に関して簡単に解説しておきます。
平均値・中央値・最頻値の3つを合わせて代表値と呼びますが、平均値はデータの中に外れ値があると、その平均値の信頼度は低下してしまうという弱点があります。
※詳しくは度数分布表の平均値の求め方について解説した記事をご覧ください。
※度数分布表の最頻値の求め方について解説した記事もご用意しているので、ぜひ合わせてご覧ください。
例えば、学校のテストの平均点のように、平均値が知りたいときというのは、自分が全体の真ん中よりも上なのか下なのかを知りたい場合だったりしますよね。
その場合は平均値に固執する必要はなく、データ(=テストの点数)を小さい順に並べて、その真ん中の値を求めてしまえば良いでしょう。
このように、あるデータを小さい順に並べたとき、真ん中にくる値のことを中央値と言います。中央値はメジアン(median)とも呼ばれています。
データに外れ値があるときは平均値を求めるよりも中央値を求めた方が全体の傾向を掴みやすくなります。
例えば、9、12、8、20、3という5つ(=奇数個)のデータがあるとします。これを小さい順に並べると、
3、8、9、12、20
となりますね。真ん中の値は9なので、このデータの中央値は9となります。
では、データの個数が偶数個の場合はどうでしょうか?
23、32、15、13、26、19という6つ(=偶数個)のデータがあるとします。小さい順に並べると、
13、15、19、23、26、32
となりますね。データの個数が偶数個なので、ちょうど真ん中の値がありません。
この場合の中央値は、真ん中にある2つのデータの平均で求めます。
つまり、上記の中央値=(19+23)/2=21となります。
中央値の求め方はデータの個数が奇数個と偶数個の場合で変わるということを覚えておきましょう。
度数分布表から中央値を求める方法(データの個数=奇数個の場合)
中央値とは何かを理解できたところで、いよいよ度数分布表から中央値を求めていきましょう。
度数分布表のデータが奇数個の場合と偶数個の場合で分けて解説していきます。
※度数分布表とは何かがわからない人は度数分布表とは何かについて解説した記事をご覧ください。
まずは奇数個の場合からです。以下の度数分布表(あるグループに所属する人の体重をまとめたもの)の中央値を求めます。
※階級値はこの後求めるので一旦空欄にしています。
階級[kg] | 階級値 | 度数[人] |
---|---|---|
50〜55 | 13 | |
55〜60 | 5 | |
60〜65 | 27 | |
65〜70 | 29 | |
70〜75 | 13 | |
75〜80 | 14 | |
合計 | 101 |
度数分布表から中央値を求める方法は以下の2ステップとなります。
- 真ん中のデータはどの階級に所属するかを考える
- 真ん中のデータが所属する階級の階級値を求める
今回、データは101個あるので、そのデータを小さい順に並べたときの真ん中のデータは51番目であることがわかります。
なので、51番目のデータがどの階級に所属するかをまずは考えます。
- 50〜55の階級のデータの個数=13
- 55〜60の階級のデータの個数=5
- 60〜65の階級のデータの個数=27
なので、以上3つの階級までで13+5+27=45個のデータが存在していることがわかります。
そして、65〜70の階級のデータの個数=29なので、小さい方から数えて51番目のデータは65〜70の階級に所属することがわかります。
65〜70の階級の階級値=(65+70)/2=67.5ですね。
度数分布表では65〜70の階級に所属する人は、全員が階級値である体重67.5kgであるとみなします。
よって、求める中央値は65〜70の階級の階級値である67.5[kg]・・・(答)となります。
度数分布表から中央値を求める方法(データの個数=偶数個の場合)
続いてはデータの個数が偶数個の場合の中央値を求めてみましょう。
以下の度数分布表(あるグループに所属する人の体重をまとめたもの)の中央値を求めます。
※階級値はこの後求めるので一旦空欄にしています。
階級[kg] | 階級値 | 度数[人] |
---|---|---|
50〜55 | 12 | |
55〜60 | 7 | |
60〜65 | 31 | |
65〜70 | 28 | |
70〜75 | 15 | |
75〜80 | 7 | |
合計 | 100 |
度数分布表から中央値を求める方法は先ほどと変わりません。
まずは真ん中のデータがどの階級に所属するかを考えましょう。
今回、データは100個あるので、そのデータを小さい順に並べたときの真ん中は50番目のデータと51番目のデータです。
なので、50番目のデータと51番目のデータがどの階級に所属するかを考えます。
- 50〜55の階級のデータの個数=12
- 55〜60の階級のデータの個数=7
- 60〜65の階級のデータの個数=31
なので、60〜65の階級までにデータは12+7+31=50個あることがわかります。
つまり、50番目のデータは60〜65の階級に所属し、51番目のデータは65〜70の階級のデータに所属していることがわかります。
ちなみに、
- 60〜65の階級の階級値=(60+65)/2=62.5
- 65〜70の階級の階級値=(65+70)/2=67.5
ですね。
今回の中央値は、50番目と51番目のデータの平均となります。
つまり、中央値=それぞれのデータ62.5[kg]と67.5[kg]の平均=(62.5+67.5)/2=65[kg]・・・(答)となります。
今回はデータを小さい順に並べたとき、小さい方から50番目と51番目のデータは違う階級に所属していました。
もし2つのデータが同じ階級に所属していた場合は、2つのデータともその階級の階級値となります。
例えば、今回、真ん中の2つのデータがともに60〜65の階級に所属していた場合、
中央値=(62.5+62.5)/2=62.5[kg]
となります。
いかがでしたでしょうか?
今回は中央値とは何かのおさらいをした後、度数分布表から中央値を求める方法について解説していきました。
中央値はデータの個数が奇数個か偶数個かで求め方が変わるので、その点だけ十分にご注意ください。