【ウーバーイーツ】距離料金の平均・中央値・モードの関係をみる【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】距離料金の平均・中央値・モードの関係をみる【統計学習ログ】

1.座学

サイト統計Webの情報をもとに学習

3-1. 平均・中央値・モード | 統計学の時間 | 統計WEB
統計学の「3-1. 平均・中央値・モード」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。
3-2. 平均・中央値・モードの関係 | 統計学の時間 | 統計WEB
統計学の「3-2. 平均・中央値・モードの関係」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。

数値からなるデータがある場合に、そのデータを端的に表す値のことを「代表値」といいます。代表値として使われる値には以下のようなものがあります。

1.平均
2.中央値
3.モード(最頻値)

3-1. 平均・中央値・モード | 統計学の時間 | 統計WEB (bellcurve.jp)

2.実践

実際に手を動かすことで理解を深める。

距離料金の平均・中央値・モード

前回作成した度数分布表を確認し、平均・中央値・モードを出す。

度数分布表

階級階級値度数
0以上50未満2523
50以上100未満7581
100以上150未満12588
150以上200未満17576
200以上250未満22553
250以上300未満27516
300以上350未満3255
350以上400未満3755
400以上450未満4252
450以上500未満4752
500以上550未満5251

・平均

学習者
学習者

平均の出し方は、中学生でも分かるね。

\(距離料金の平均=距離料金合計÷データの数\)

\(距離料金の平均=52909÷352\)

よって、距離料金の平均は、150.31となった。

学習者
学習者

うん、簡単だね。
この方法は1つ1つのデータ(距離料金)が既に分かっているから計算できる。上記の度数分布表のように、1つ1つのデータが分からない場合は、どうするんだろう。

 

統計Webを確認したところ、

もしデータが度数分布表の形になっている場合は、「階級値」と「度数」を使っておよその平均を算出できます。n個の階級を持つ度数分布表の場合、階級値を\(v\)、度数を\(f\)(i=1, 2, …, n)とすると次の式になります。

 \bar{X}=\displaystyle \frac{\left( f_1 v_1 + f_2 v_2 + \cdots +f_n v_n \right)}{\left( f_1 + f_2 + \cdots + f_n \right) }

 

学習者
学習者

度数分布表のみの場合でも、およその平均を算出できるみたいだね。やってみよう。

 

度数分布表

階級階級値(\(v\))度数(\(f\))
0以上50未満2523
50以上100未満7581
100以上150未満12588
150以上200未満17576
200以上250未満22553
250以上300未満27516
300以上350未満3255
350以上400未満3755
400以上450未満4252
450以上500未満4752
500以上550未満5251

上記公式に当てはめて計算すると、

……

(省略)

……

結果、210.71になった。

学習者
学習者

え、、度数分布表での平均と一般的な平均で約60もの差が出てしまった。。

 

平均 まとめ

・一般的な平均の計算式 →150.31
・度数分布表を使った平均→210.71

・中央値

学習者
学習者

中央値もそんなに難しくないね。

念のため、統計Webで確認。

2. 中央値
中央値はメディアン(Median)ともよばれます。データを小さい順に並べたときにちょうど真ん中に来る値のことです。

3-1. 平均・中央値・モード | 統計学の時間 | 統計WEB (bellcurve.jp)

 

学習者
学習者

距離料金で中央値を決める場合は、距離料金のデータを小さい順に並べてみたら分かるね。

距離料金の中央値をスプレッドシートの関数で計算したところ、138.5となった。

 

・モード(最頻値)

学習者
学習者

モード(最頻値)は、初めて聞いたぞ!

統計Webで確認。

3. モード(最頻値)
モードは最頻値とも呼ばれ、最もデータ数の多い値を指します。例えば「1, 1, 2, 4, 5, 8, 9, 10, 11」というデータの場合、モードは「1」です。

また、度数分布表では最も度数の大きい階級値がモードとなります。次に示すあるクラスの生徒の身長の度数分布表の場合、最も度数の大きい階級は「160cm以上170cm未満」であり、モードはその階級値である165cmとなります。

3-1. 平均・中央値・モード | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

ふむふむ、そこまで難しくないね。

普通のやり方と度数分布表を用いたやり方、両方ともやってみよう!

距離料金のモード(最頻値)をスプレッドシートの関数で計算したところ、86となった。

 

度数分布表では最も度数の大きい階級値がモードとなるらしい。

度数分布表を見てみると、

階級階級値度数
0以上50未満2523
50以上100未満7581
100以上150未満12588
150以上200未満17576
200以上250未満22553
250以上300未満27516
300以上350未満3255
350以上400未満3755
400以上450未満4252
450以上500未満4752
500以上550未満5251

度数が一番高い100以上150未満の階級値125がモード(最頻値)となった。

学習者
学習者

これで、距離料金の平均・中央値・モード(最頻値)が分かったね。

 

 

距離料金の平均・中央値・モード まとめ

平均 :150.31 ※度数分布表を用いた場合は210.71
中央値:138.5
モード:86   ※度数分布表を用いた場合は125

平均・中央値・モードの位置関係

距離料金のヒストグラムに平均・中央値・モードを表してみる。

度数分布表を用いた数値を使用した場合

※モードと中央値が同じ階級にあるが、数値の大小を比べるとモードが中央値より小さい。

結果、それぞれの値の開きは異なるが、並び順はいっしょになった。

学習者
学習者

並び順に決まりはあるかな?

 

ここで、統計Webの説明文を確認してみる。

1組のヒストグラムのように山が一つで左右対称の分布の場合、「平均」「中央値」「モード」はすべて同じ値になります。

……

一方、2組のヒストグラムのように山が一つでも、分布が左右対称ではなく左に偏っている(=右に裾を引いている)場合、「平均」「中央値」「モード」は一致せず、右から順番で並ぶことが多くなります……

……

右に偏っている(=左に裾を引いている)ヒストグラムの場合には、「平均」「中央値」「モード」は左から並ぶことが多くなります。

……

※データによっては、必ずしも「平均」「中央値」「モード」の順番で並ばないものもあります……

つまり、今回のヒストグラムは左に偏っているため、右から「平均」「中央値」「モード」という位置関係になった。

学習者
学習者

統計Webの説明文を見ると、必ずしもこの並びになるわけではないみたいだね。

3.まとめ

分かったことをまとめる。

・平均とモードは度数分布表からも算出できる(およその数値)
・ヒストグラムの偏り方によって、「平均」「中央値」「モード」の並び順が変わる

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました