【ウーバーイーツ】距離料金の偏り具合を数値化する(ジニ係数)【統計学習ログ】
0.疑問
前回、配達データの距離料金でローレンツ曲線を作成した。

ローレンツ曲線を作成したことにより、距離料金の偏り具合を直観的に把握できた。
しかし、偏り具合を数値化できていないため、他との比較が難しい。
偏り具合を数値化する方法はあるのだろうか。
1.座学
サイト統計Webの情報をもとに学習
キーワード:ジニ係数
「偏り」や「不均等さ」を数値で表したものが「ジニ係数」です。
2.実践
実際に手を動かすことで理解を深める。
ローレンツ曲線の確認
前回作成したローレンツ曲線を再確認する。
・ローレンツ曲線
階級 | 度数 | 累積相対度数 | 距離料金合計 | 距離料金の 相対度数 | 距離料金の 累積相対度数 |
0以上50未満 | 23 | 0.0653 | 842 | 0.01591411669 | 0.01591411669 |
50以上100未満 | 81 | 0.2954 | 6108 | 0.1154434973 | 0.131357614 |
100以上150未満 | 88 | 0.5454 | 10711 | 0.2024419286 | 0.3337995426 |
150以上200未満 | 76 | 0.7613 | 13422 | 0.2536808482 | 0.5874803909 |
200以上250未満 | 53 | 0.9119 | 11709 | 0.221304504 | 0.8087848948 |
250以上300未満 | 16 | 0.9574 | 4278 | 0.08085580903 | 0.8896407039 |
300以上350未満 | 5 | 0.9716 | 1629 | 0.0307887127 | 0.9204294165 |
350以上400未満 | 5 | 0.9858 | 1890 | 0.03572171086 | 0.9561511274 |
400以上450未満 | 2 | 0.9915 | 844 | 0.01595191744 | 0.9721030449 |
450以上500未満 | 2 | 0.9972 | 955 | 0.01804985919 | 0.990152904 |
500以上550未満 | 1 | 1 | 521 | 0.009847095957 | 1 |
※(0,0)と(1,1)を結ぶ黒い線は、完全平等線になる。

このグラフでは、偏りがあることは分かるけど、「どれくらい偏っているの?」と言われたら返答に困る。
偏り具合を数値化できたら、簡単に他人に伝えられるね。
ジニ係数を求める
ジニ係数の計算方法を確認すると、
ジニ係数は完全平等線((0,0)と(1,1)を結ぶ線:図中の黒破線)とローレンツ曲線との間の面積(次の図の橙色部分)を2倍した値になります。
要約すると、
ジニ係数

ふむふむ、以下の斜線部分(オレンジ色)を求めて、その値を2倍したらいいんだね。

よし!求めよう!!
………どうやって。。
難しいため、段階をふんで、計算してみる。
・計算の段取り
統計Webを参考にしたところ、
\(求める面積部分=全体-不要な面積部分\)
としていた。
つまり、こういうこと。
全体から、
不要な面積部分を引いて、
求める面積部分を出す。
つまり、全体と不要な面積部分が分かれば良い。
・全体を求める

超絶簡単だね。
三角形なので、「底辺×高さ÷2」に当てはめる。
\(1×1×0.5=0.5\)
よって、全体は0.5となる。
途中経過
・不要な面積部分を求める

複雑な形だね。この部分の面積を求めるのは、難しそう。
統計Webを参考にしたところ、
ローレンツ曲線のプロット部分で分けて計算していた。
つまり、こんな感じ。
※図では曲線になっているが、点と点まで直線になっているとする。
この色付きの部分を1つ1つ計算して、合計を出せば、不要な面積部分が分かる。
それぞれ計算していく。計算に必要な表↓
累積相対度数 | 距離料金の累積相対度数 |
0.2954 | 0.131357614 |
0.5454 | 0.3337995426 |
0.7613 | 0.5874803909 |
0.9119 | 0.8087848948 |
1 | 1 |
黄色部分(三角形)
\(0.2954×0.1313×0.5=0.0194\)
青色部分(台形)
\((0.1313+0.3337)×(0.5454-0.2954)×0.5=0.0581\)
緑色部分(台形)
\((0.3337+0.5874)×(0.7613-0.5454)×0.5=0.0994\)
ピンク色部分(台形)
\((0.5874+0.8087)×(0.9119-0.7613)×0.5=0.1051\)
茶色部分(台形)
\((0.8087+1)×(1-0.9119)×0.5=0.0796\)
合計
\(0.0194+0.0581+0.0994+0.1051+0.0796=0.3616\)
不要な面積部分は、0.3616となった。
途中経過
・ジニ係数を計算する
全体(0.5)と不要な面積部分(0.3616)が求められた。
求める面積部分を計算する。
\(求める面積部分=0.5-0.3616\)
結果、0.1384となった。

で、この数値をどうするんだっけ。
ジニ係数 復習

完全平等線とローレンツ曲線との間の面積が、0.1384になったわけだ。後はこれを2倍すれば、ジニ係数が出るね。
2倍した結果、0.2768となった。
つまり、偏り具合を表すジニ係数が0.2768ということ。
ジニ係数の見方
統計Webを見ると、
ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さいことを表します。
今回のジニ係数は0.2768。
比較対象がないため、なんともいえないが、0.5を偏り具合の大きい小さいの基準とするならば、偏りは小さい方と言えそうだ。
3.まとめ
分かったことをまとめる。
4.参考文献
筆者の配達データ
コメント