【ウーバーイーツ】距離料金の箱ひげ図を作成してみる【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】距離料金の箱ひげ図を作成してみる【統計学習ログ】

1.座学

サイト統計Webの情報をもとに学習

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

「箱ひげ図(Boxplot)」は、データの分布を「箱」と「ひげ」で表したグラフで、データがどのあたりの値に集中しているかをひと目で捉えることができます。

4-1. 箱ひげ図とは | 統計学の時間 | 統計WEB (bellcurve.jp)

2.実践

実際に手を動かすことで理解を深める。

距離料金の確認

配達データは全部で352個。

番号距離料金
1238
2124
392
4100
5197
35295
学習者
学習者

表を見るだけでは、どのあたりの値に集中しているか分からないね。

箱ひげ図を作成(Excel)

上記の表をもとに箱ひげ図をExcelで作成してみたところ、

上記のようになった。

学習者
学習者

ラベルの数値が距離料金を表していることは分かる。それ以外は謎。

分からないところを1つ1つ見ていく。

・最小値

一番下の数値「18」が何を意味しているか確認する。

統計Webの説明文を確認すると、

ひげの下端は「最小値=52」を、ひげの上端は「最大値=110」を表しています。

4-1. 箱ひげ図とは | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

今回の距離料金の表では、18が一番小さい数値ということだね!

学習者
学習者

「ひげの上端は最大値」とあるね。ということは、距離料金の最大値は342になっちゃう?
でも、距離料金の表での最大値は「521」になる。どういうことだろう?

 

・外れ値

箱ひげ図の上部にある数値が何を意味しているか確認する。

ひげ上端より上にある数値の意味を統計Webで探すと、

外れ値とは、データの分布において、他の観測値から大きく外れた値のことです。外れ値は、測定ミスによる場合や実際に何か異常があって観測された場合など、様々な原因によって起こりえます。外れ値が存在すると、データの解釈が難しくなる場合があり、扱いには注意が必要です。

4-3. 外れ値検出のある箱ひげ図 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

ひげ上端より上にある数値を「外れ値」と言うんだね。意味としては、「他の数値より大きすぎるよ、観測ミスじゃない?」って感じかな。

実際に、外れ値の距離料金を調べてみると、

料金 距離料金 受け渡し料金
521200
495200
460200
441200
403200
390200
388200
373200
370200
369200

※受け渡し料金は基本100円だが、ダブルピック(1店舗から2件分の商品受け取り)の場合は200円

学習者
学習者

あ、ダブルピックと通常ピックのデータが混ざっているの考慮してなかった!!

こういう風に、データの整理ミスを見つけるきっかけになりそうだ。

 

ひげ上端の数値の意味を統計Webで探すと、

ひげの長さを四分位範囲(IQR)の1.5倍を上下限とするものがあります。このとき、「第一四分位数-1.5×IQR」がひげの下限、「第三四分位数+1.5×IQR」がひげの上限となり、ひげの下端より小さい値やひげの上端より大きい値を「外れ値」として扱います。

4-3. 外れ値検出のある箱ひげ図 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

むずし。。
とりあえず、なにかの1.5倍までを上下限にすることは分かった。

 

「なにか(四分位範囲)」を調べてみる。

・四分位範囲

箱ひげ図の箱部分にある数値が何を意味しているか確認する。

統計Webの説明文を探すと、以下の図があった。

4-2. 箱ひげ図の見方 | 統計学の時間 | 統計WEB (bellcurve.jp)

上記の図より、距離料金の箱ひげ図の値を当てはめると、

上から
第三四分位数:196.75
第二四分位数:138.5
第一四分位数:89.25

そして、四分位範囲(IQR)は、第一四分位数から第三四分位数までの範囲になる。そのため、距離料金の箱ひげ図の四分位範囲(IQR)は、89.25から196.75までとなる。

四分位範囲(IQR):89.25~196.75
学習者
学習者

ふむふむ、数値の名前は分かった。でも、その値は、いったい何を表すのか分からないままだ。

 

再び統計Webで調べてみる。

・25パーセンタイル=第一四分位数
・50パーセンタイル=第二四分位数
・75パーセンタイル=第三四分位数

4-2. 箱ひげ図の見方 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

パーセンタイル??初耳だ!
このパーセンタイルを理解できれば、四分位数を攻略できるかも!

 

統計Webでパーセンタイルを調べてみる。

■パーセンタイル
箱ひげ図の見方を説明する前に、「パーセンタイル」について触れます。パーセンタイルは「データを小さい順で並べたとき、ある数値がデータの小さい方から見て何%の位置にあるかを表すもの」です。0パーセンタイルは最小値を、100パーセンタイルは最大値を表します。Nパーセンタイルは、データ全体をN%と100-N%で分割する値です。

4-2. 箱ひげ図の見方 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

そこまで難しくないぞ!
距離料金の箱ひげ図で表すと、最小値(18)から第一四分位数(25パーセンタイル)までに全体の25%のデータが含まれているということだね。

 

距離料金の箱ひげ図で表すと、

こんな感じかも(外れ値には触れないでおく)。

まとめると、

第一四分位数:ここまでに全体の25%が含まれる
第二四分位数:ここまでに全体の50%が含まれる
第三四分位数:ここまでに全体の75%が含まれる

となると、四分位範囲(IQR)には、全体の50%が含まれているということになるね。

四分位範囲(IQR)には、全体の50%が含まれる

 

・最大値

外れ値の項で放置していた「最大値」を改めて考えてみる。

統計Webの説明文を再度確認すると、

ひげの長さを四分位範囲(IQR)の1.5倍を上下限とするものがあります。このとき、「第一四分位数-1.5×IQR」がひげの下限、「第三四分位数+1.5×IQR」がひげの上限となり……

4-2. 箱ひげ図の見方 | 統計学の時間 | 統計WEB (bellcurve.jp)

上記の説明文を参考に、ひげの下限・上限(最大値)を求めると、

ひげの下限

\(89.25-1.5×(196.75-89.25)\)

\(=-72\)

ひげの上限(最大値)

\(196.75+1.5\times(196.75-89.25)\)

\(=358\)

よって、ひげの下限は-72、上限は358となる。

学習者
学習者

ふむふむ、つまり、距離料金の最大値342は、上限の358を下回っている数値の中で一番大きかったんだね。また、上限358を上回っている数値は、外れ値となったわけだ。

まとめると、

ひげの下限:-72
ひげの上限:358

・平均値

最後に残ったこの数値は、何を意味するのだろう。

統計Webには記載がなかったが、この数値は平均値を表していると一目で分かった。

3.まとめ

分かったことをまとめる。

・箱ひげ図の見方

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました