【ウーバーイーツ】配達データの距離料金でローレンツ曲線を作成してみる【統計学習ログ】
0.疑問
前回、配達データの距離料金で度数分布表・ヒストグラムを作成した。

度数分布表・ヒストグラムを見たところ、明らかに偏りがあった。
しかし、偏りの度合いは、はっきり分からない。
偏りの度合いは、どのように表すのだろうか。
1.座学
サイト統計Webの情報をもとに学習
キーワード:ローレンツ曲線
「偏り=不均等さ」を表すための曲線を「ローレンツ曲線」といいます。
2.実践
実際に手を動かすことで理解を深める。
度数分布表の確認
前回作成した度数分布表を再確認する。
・度数分布表
階級 | 階級値 | 度数 | 相対度数 | 累積相対度数 |
0以上50未満 | 25 | 23 | 0.0653 | 0.0653 |
50以上100未満 | 75 | 81 | 0.2301 | 0.2954 |
100以上150未満 | 125 | 88 | 0.25 | 0.5454 |
150以上200未満 | 175 | 76 | 0.2159 | 0.7613 |
200以上250未満 | 225 | 53 | 0.1506 | 0.9119 |
250以上300未満 | 275 | 16 | 0.0455 | 0.9574 |
300以上350未満 | 325 | 5 | 0.0142 | 0.9716 |
350以上400未満 | 375 | 5 | 0.0142 | 0.9858 |
400以上450未満 | 425 | 2 | 0.0057 | 0.9915 |
450以上500未満 | 475 | 2 | 0.0057 | 0.9972 |
500以上550未満 | 525 | 1 | 0.0028 | 1 |

度数分布表の累積相対度数を見ると、距離料金0以上150未満に全体の約55%を占めていることが分かる。
つまり、残りの45%が距離料金150以上550未満にあると分かる。

明らかに前半部分に偏っているね。
ローレンツ曲線に必要なデータ
ローレンツ曲線の作成に必要なデータを確認すると、
ローレンツ曲線を作るためには2つの累積相対度数が必要です。1つ目は各階級の度数の累積相対度数です。
……
2つ目は、各階級に属する値の合計の累積相対度数です。
必要なデータをまとめると、
・各階級に属する値の合計の累積相対度数
上記2つが、ローレンツ曲線作成の材料になる。
・各階級の度数の累積相対度数
前述の表で確認すると、
階級 | 階級値 | 度数 | 相対度数 | 累積相対度数 |
0以上50未満 | 25 | 23 | 0.0653 | 0.0653 |
50以上100未満 | 75 | 81 | 0.2301 | 0.2954 |
100以上150未満 | 125 | 88 | 0.25 | 0.5454 |
150以上200未満 | 175 | 76 | 0.2159 | 0.7613 |
200以上250未満 | 225 | 53 | 0.1506 | 0.9119 |
250以上300未満 | 275 | 16 | 0.0455 | 0.9574 |
300以上350未満 | 325 | 5 | 0.0142 | 0.9716 |
350以上400未満 | 375 | 5 | 0.0142 | 0.9858 |
400以上450未満 | 425 | 2 | 0.0057 | 0.9915 |
450以上500未満 | 475 | 2 | 0.0057 | 0.9972 |
500以上550未満 | 525 | 1 | 0.0028 | 1 |
上記表の水色部分が、各階級の度数の累積相対度数になる。

これは、前回出したものといっしょだから簡単だね。
・各階級に属する値の合計の累積相対度数

ちょっと難しそうだ。段階をふんで、ゆっくりやろう。
まず、各階級に属する値の合計を表に追加してみる。
階級 | 度数 | 累積相対度数 | 各階級の距離料金合計 |
0以上50未満 | 23 | 0.0653 | 842 |
50以上100未満 | 81 | 0.2954 | 6108 |
100以上150未満 | 88 | 0.5454 | 10711 |
150以上200未満 | 76 | 0.7613 | 13422 |
200以上250未満 | 53 | 0.9119 | 11709 |
250以上300未満 | 16 | 0.9574 | 4278 |
300以上350未満 | 5 | 0.9716 | 1629 |
350以上400未満 | 5 | 0.9858 | 1890 |
400以上450未満 | 2 | 0.9915 | 844 |
450以上500未満 | 2 | 0.9972 | 955 |
500以上550未満 | 1 | 1 | 521 |

階級0以上50未満の”各階級の距離料金合計”を見てみると、842になっている。この数値は、階級0以上50未満に含まれる距離料金のデータの合計になるってわけだね。
次に、各階級の距離料金の相対度数を出してみる。この数値は、累積相対度数を計算するために必要。
階級 | 度数 | 累積相対度数 | 各階級の距離料金合計 | 各階級の距離料金の相対度数 |
0以上50未満 | 23 | 0.0653 | 842 | 0.01591411669 |
50以上100未満 | 81 | 0.2954 | 6108 | 0.1154434973 |
100以上150未満 | 88 | 0.5454 | 10711 | 0.2024419286 |
150以上200未満 | 76 | 0.7613 | 13422 | 0.2536808482 |
200以上250未満 | 53 | 0.9119 | 11709 | 0.221304504 |
250以上300未満 | 16 | 0.9574 | 4278 | 0.08085580903 |
300以上350未満 | 5 | 0.9716 | 1629 | 0.0307887127 |
350以上400未満 | 5 | 0.9858 | 1890 | 0.03572171086 |
400以上450未満 | 2 | 0.9915 | 844 | 0.01595191744 |
450以上500未満 | 2 | 0.9972 | 955 | 0.01804985919 |
500以上550未満 | 1 | 1 | 521 | 0.009847095957 |
各階級の距離料金の相対度数は、以下のように求めた。
\(各階級の距離料金の相対度数=各階級の距離料金合計÷すべての階級の距離料金合計\)
すべての階級の距離料金合計は、52909となった。
最後に、距離料金の累積相対度数を出す。
階級 | 度数 | 累積相対度数 | 距離料金合計 | 距離料金の 相対度数 | 距離料金の 累積相対度数 |
0以上50未満 | 23 | 0.0653 | 842 | 0.01591411669 | 0.01591411669 |
50以上100未満 | 81 | 0.2954 | 6108 | 0.1154434973 | 0.131357614 |
100以上150未満 | 88 | 0.5454 | 10711 | 0.2024419286 | 0.3337995426 |
150以上200未満 | 76 | 0.7613 | 13422 | 0.2536808482 | 0.5874803909 |
200以上250未満 | 53 | 0.9119 | 11709 | 0.221304504 | 0.8087848948 |
250以上300未満 | 16 | 0.9574 | 4278 | 0.08085580903 | 0.8896407039 |
300以上350未満 | 5 | 0.9716 | 1629 | 0.0307887127 | 0.9204294165 |
350以上400未満 | 5 | 0.9858 | 1890 | 0.03572171086 | 0.9561511274 |
400以上450未満 | 2 | 0.9915 | 844 | 0.01595191744 | 0.9721030449 |
450以上500未満 | 2 | 0.9972 | 955 | 0.01804985919 | 0.990152904 |
500以上550未満 | 1 | 1 | 521 | 0.009847095957 | 1 |

距離料金の累積相対度数が出た!
これで、ローレンツ曲線に必要な材料がそろったね!
復習 ローレンツ曲線に必要な材料
・各階級に属する値の合計の累積相対度数
ローレンツ曲線を作成
統計Webより、見本の図を引用。

詳しいことは分からないけど、上記のグラフにある完全平等線からかなり離れた曲線になるんじゃないかな。
ローレンツ曲線を作成してみる。

ゆるやかな曲線だね。
完全平等線を加える。

今回のローレンツ曲線は、完全平等線と重なっていないことから、距離料金の分布に偏りがあると分かるね。

ローレンツ曲線と完全平等線の比較から、直観的に偏り具合は分かる。でも、偏り具合の具体的な数値が分からないから、他と比較するときにめんどくさくなりそう。
ローレンツ曲線を作成した結果、直観的な偏り具合が分かった。しかし、偏り具合を数値化できていないため、他と比較しづらそうだ。
上記は、次回の課題となる。
3.まとめ
分かったこと・分からなかったことをまとめる。
分かったこと
4.参考文献
筆者の配達データ
コメント