【ウーバーイーツ】距離料金の平均・中央値・モードの関係をみる【統計学習ログ】
1.座学
サイト統計Webの情報をもとに学習
数値からなるデータがある場合に、そのデータを端的に表す値のことを「代表値」といいます。代表値として使われる値には以下のようなものがあります。
1.平均
2.中央値
3.モード(最頻値)
2.実践
実際に手を動かすことで理解を深める。
距離料金の平均・中央値・モード
前回作成した度数分布表を確認し、平均・中央値・モードを出す。
度数分布表
階級 | 階級値 | 度数 |
0以上50未満 | 25 | 23 |
50以上100未満 | 75 | 81 |
100以上150未満 | 125 | 88 |
150以上200未満 | 175 | 76 |
200以上250未満 | 225 | 53 |
250以上300未満 | 275 | 16 |
300以上350未満 | 325 | 5 |
350以上400未満 | 375 | 5 |
400以上450未満 | 425 | 2 |
450以上500未満 | 475 | 2 |
500以上550未満 | 525 | 1 |
・平均

平均の出し方は、中学生でも分かるね。
\(距離料金の平均=距離料金合計÷データの数\)
\(距離料金の平均=52909÷352\)
よって、距離料金の平均は、150.31となった。

うん、簡単だね。
この方法は1つ1つのデータ(距離料金)が既に分かっているから計算できる。上記の度数分布表のように、1つ1つのデータが分からない場合は、どうするんだろう。
統計Webを確認したところ、
もしデータが度数分布表の形になっている場合は、「階級値」と「度数」を使っておよその平均を算出できます。n個の階級を持つ度数分布表の場合、階級値を\(v\)、度数を\(f\)(i=1, 2, …, n)とすると次の式になります。

度数分布表のみの場合でも、およその平均を算出できるみたいだね。やってみよう。
度数分布表
階級 | 階級値(\(v\)) | 度数(\(f\)) |
0以上50未満 | 25 | 23 |
50以上100未満 | 75 | 81 |
100以上150未満 | 125 | 88 |
150以上200未満 | 175 | 76 |
200以上250未満 | 225 | 53 |
250以上300未満 | 275 | 16 |
300以上350未満 | 325 | 5 |
350以上400未満 | 375 | 5 |
400以上450未満 | 425 | 2 |
450以上500未満 | 475 | 2 |
500以上550未満 | 525 | 1 |
上記公式に当てはめて計算すると、
……
(省略)
……
結果、210.71になった。

え、、度数分布表での平均と一般的な平均で約60もの差が出てしまった。。
平均 まとめ
・度数分布表を使った平均→210.71
・中央値

中央値もそんなに難しくないね。
念のため、統計Webで確認。
2. 中央値
中央値はメディアン(Median)ともよばれます。データを小さい順に並べたときにちょうど真ん中に来る値のことです。

距離料金で中央値を決める場合は、距離料金のデータを小さい順に並べてみたら分かるね。
距離料金の中央値をスプレッドシートの関数で計算したところ、138.5となった。
・モード(最頻値)

モード(最頻値)は、初めて聞いたぞ!
統計Webで確認。
3. モード(最頻値)
モードは最頻値とも呼ばれ、最もデータ数の多い値を指します。例えば「1, 1, 2, 4, 5, 8, 9, 10, 11」というデータの場合、モードは「1」です。また、度数分布表では最も度数の大きい階級値がモードとなります。次に示すあるクラスの生徒の身長の度数分布表の場合、最も度数の大きい階級は「160cm以上170cm未満」であり、モードはその階級値である165cmとなります。

ふむふむ、そこまで難しくないね。
普通のやり方と度数分布表を用いたやり方、両方ともやってみよう!
距離料金のモード(最頻値)をスプレッドシートの関数で計算したところ、86となった。
度数分布表では最も度数の大きい階級値がモードとなるらしい。
度数分布表を見てみると、
階級 | 階級値 | 度数 |
0以上50未満 | 25 | 23 |
50以上100未満 | 75 | 81 |
100以上150未満 | 125 | 88 |
150以上200未満 | 175 | 76 |
200以上250未満 | 225 | 53 |
250以上300未満 | 275 | 16 |
300以上350未満 | 325 | 5 |
350以上400未満 | 375 | 5 |
400以上450未満 | 425 | 2 |
450以上500未満 | 475 | 2 |
500以上550未満 | 525 | 1 |
度数が一番高い100以上150未満の階級値125がモード(最頻値)となった。

これで、距離料金の平均・中央値・モード(最頻値)が分かったね。
距離料金の平均・中央値・モード まとめ
中央値:138.5
モード:86 ※度数分布表を用いた場合は125
平均・中央値・モードの位置関係
距離料金のヒストグラムに平均・中央値・モードを表してみる。
度数分布表を用いた数値を使用した場合
※モードと中央値が同じ階級にあるが、数値の大小を比べるとモードが中央値より小さい。
結果、それぞれの値の開きは異なるが、並び順はいっしょになった。

並び順に決まりはあるかな?
ここで、統計Webの説明文を確認してみる。
1組のヒストグラムのように山が一つで左右対称の分布の場合、「平均」「中央値」「モード」はすべて同じ値になります。
……
一方、2組のヒストグラムのように山が一つでも、分布が左右対称ではなく左に偏っている(=右に裾を引いている)場合、「平均」「中央値」「モード」は一致せず、右から順番で並ぶことが多くなります……
……
右に偏っている(=左に裾を引いている)ヒストグラムの場合には、「平均」「中央値」「モード」は左から並ぶことが多くなります。
……
※データによっては、必ずしも「平均」「中央値」「モード」の順番で並ばないものもあります……
つまり、今回のヒストグラムは左に偏っているため、右から「平均」「中央値」「モード」という位置関係になった。

統計Webの説明文を見ると、必ずしもこの並びになるわけではないみたいだね。
3.まとめ
分かったことをまとめる。
・ヒストグラムの偏り方によって、「平均」「中央値」「モード」の並び順が変わる
4.参考文献
筆者の配達データ
コメント