【ウーバーイーツ】距離料金の箱ひげ図を作成してみる【統計学習ログ】
1.座学
サイト統計Webの情報をもとに学習
「箱ひげ図(Boxplot)」は、データの分布を「箱」と「ひげ」で表したグラフで、データがどのあたりの値に集中しているかをひと目で捉えることができます。
2.実践
実際に手を動かすことで理解を深める。
距離料金の確認
配達データは全部で352個。
番号 | 距離料金 |
1 | 238 |
2 | 124 |
3 | 92 |
4 | 100 |
5 | 197 |
… | … |
352 | 95 |

表を見るだけでは、どのあたりの値に集中しているか分からないね。
箱ひげ図を作成(Excel)
上記の表をもとに箱ひげ図をExcelで作成してみたところ、
上記のようになった。

ラベルの数値が距離料金を表していることは分かる。それ以外は謎。
分からないところを1つ1つ見ていく。
・最小値
一番下の数値「18」が何を意味しているか確認する。
統計Webの説明文を確認すると、
ひげの下端は「最小値=52」を、ひげの上端は「最大値=110」を表しています。

今回の距離料金の表では、18が一番小さい数値ということだね!

「ひげの上端は最大値」とあるね。ということは、距離料金の最大値は342になっちゃう?
でも、距離料金の表での最大値は「521」になる。どういうことだろう?
・外れ値
箱ひげ図の上部にある数値が何を意味しているか確認する。
ひげ上端より上にある数値の意味を統計Webで探すと、
外れ値とは、データの分布において、他の観測値から大きく外れた値のことです。外れ値は、測定ミスによる場合や実際に何か異常があって観測された場合など、様々な原因によって起こりえます。外れ値が存在すると、データの解釈が難しくなる場合があり、扱いには注意が必要です。

ひげ上端より上にある数値を「外れ値」と言うんだね。意味としては、「他の数値より大きすぎるよ、観測ミスじゃない?」って感じかな。
実際に、外れ値の距離料金を調べてみると、
料金 距離 | 料金 受け渡し料金 |
521 | 200 |
495 | 200 |
460 | 200 |
441 | 200 |
403 | 200 |
390 | 200 |
388 | 200 |
373 | 200 |
370 | 200 |
369 | 200 |
※受け渡し料金は基本100円だが、ダブルピック(1店舗から2件分の商品受け取り)の場合は200円

あ、ダブルピックと通常ピックのデータが混ざっているの考慮してなかった!!
こういう風に、データの整理ミスを見つけるきっかけになりそうだ。
ひげ上端の数値の意味を統計Webで探すと、
ひげの長さを四分位範囲(IQR)の1.5倍を上下限とするものがあります。このとき、「第一四分位数-1.5×IQR」がひげの下限、「第三四分位数+1.5×IQR」がひげの上限となり、ひげの下端より小さい値やひげの上端より大きい値を「外れ値」として扱います。

むずし。。
とりあえず、なにかの1.5倍までを上下限にすることは分かった。
「なにか(四分位範囲)」を調べてみる。
・四分位範囲
箱ひげ図の箱部分にある数値が何を意味しているか確認する。
統計Webの説明文を探すと、以下の図があった。
上記の図より、距離料金の箱ひげ図の値を当てはめると、
第三四分位数:196.75
第二四分位数:138.5
第一四分位数:89.25
そして、四分位範囲(IQR)は、第一四分位数から第三四分位数までの範囲になる。そのため、距離料金の箱ひげ図の四分位範囲(IQR)は、89.25から196.75までとなる。

ふむふむ、数値の名前は分かった。でも、その値は、いったい何を表すのか分からないままだ。
再び統計Webで調べてみる。
・25パーセンタイル=第一四分位数
・50パーセンタイル=第二四分位数
・75パーセンタイル=第三四分位数

パーセンタイル??初耳だ!
このパーセンタイルを理解できれば、四分位数を攻略できるかも!
統計Webでパーセンタイルを調べてみる。
■パーセンタイル
箱ひげ図の見方を説明する前に、「パーセンタイル」について触れます。パーセンタイルは「データを小さい順で並べたとき、ある数値がデータの小さい方から見て何%の位置にあるかを表すもの」です。0パーセンタイルは最小値を、100パーセンタイルは最大値を表します。Nパーセンタイルは、データ全体をN%と100-N%で分割する値です。

そこまで難しくないぞ!
距離料金の箱ひげ図で表すと、最小値(18)から第一四分位数(25パーセンタイル)までに全体の25%のデータが含まれているということだね。
距離料金の箱ひげ図で表すと、
こんな感じかも(外れ値には触れないでおく)。
まとめると、
第二四分位数:ここまでに全体の50%が含まれる
第三四分位数:ここまでに全体の75%が含まれる
となると、四分位範囲(IQR)には、全体の50%が含まれているということになるね。
・最大値
外れ値の項で放置していた「最大値」を改めて考えてみる。
統計Webの説明文を再度確認すると、
ひげの長さを四分位範囲(IQR)の1.5倍を上下限とするものがあります。このとき、「第一四分位数-1.5×IQR」がひげの下限、「第三四分位数+1.5×IQR」がひげの上限となり……
上記の説明文を参考に、ひげの下限・上限(最大値)を求めると、
ひげの下限
\(89.25-1.5×(196.75-89.25)\)
\(=-72\)
ひげの上限(最大値)
\(196.75+1.5\times(196.75-89.25)\)
\(=358\)
よって、ひげの下限は-72、上限は358となる。

ふむふむ、つまり、距離料金の最大値342は、上限の358を下回っている数値の中で一番大きかったんだね。また、上限358を上回っている数値は、外れ値となったわけだ。
まとめると、
ひげの上限:358
・平均値
最後に残ったこの数値は、何を意味するのだろう。
統計Webには記載がなかったが、この数値は平均値を表していると一目で分かった。
3.まとめ
分かったことをまとめる。
4.参考文献
筆者の配達データ
コメント