【ウーバーイーツ】距離料金の偏り具合を数値化する(ジニ係数)【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】距離料金の偏り具合を数値化する(ジニ係数)【統計学習ログ】

0.疑問

前回、配達データの距離料金でローレンツ曲線を作成した。

【ウーバーイーツ】配達データの距離料金でローレンツ曲線を作成してみる【統計学習ログ】
【ウーバーイーツ】配達データの距離料金でローレンツ曲線を作成してみる【統計学習ログ】 0.疑問 前回、配達データの距離料金で度数分布表・ヒストグラムを作成した。 度数分布表・ヒストグラムを見たところ、明らかに偏りがあっ...

ローレンツ曲線を作成したことにより、距離料金の偏り具合を直観的に把握できた。

しかし、偏り具合を数値化できていないため、他との比較が難しい。

偏り具合を数値化する方法はあるのだろうか。

1.座学

サイト統計Webの情報をもとに学習

2-5. ジニ係数 | 統計学の時間 | 統計WEB
統計学の「2-5. ジニ係数」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。

 

キーワード:ジニ係数

「偏り」や「不均等さ」を数値で表したものが「ジニ係数」です。

2-5. ジニ係数 | 統計学の時間 | 統計WEB (bellcurve.jp)

2.実践

実際に手を動かすことで理解を深める。

ローレンツ曲線の確認

前回作成したローレンツ曲線を再確認する。

・ローレンツ曲線

階級度数累積相対度数距離料金合計距離料金の
相対度数
距離料金の
累積相対度数
0以上50未満230.06538420.015914116690.01591411669
50以上100未満810.295461080.11544349730.131357614
100以上150未満880.5454107110.20244192860.3337995426
150以上200未満760.7613134220.25368084820.5874803909
200以上250未満530.9119117090.2213045040.8087848948
250以上300未満160.957442780.080855809030.8896407039
300以上350未満50.971616290.03078871270.9204294165
350以上400未満50.985818900.035721710860.9561511274
400以上450未満20.99158440.015951917440.9721030449
450以上500未満20.99729550.018049859190.990152904
500以上550未満115210.0098470959571

※(0,0)と(1,1)を結ぶ黒い線は、完全平等線になる。

学習者
学習者

このグラフでは、偏りがあることは分かるけど、「どれくらい偏っているの?」と言われたら返答に困る。
偏り具合を数値化できたら、簡単に他人に伝えられるね。

ジニ係数を求める

ジニ係数の計算方法を確認すると、

ジニ係数は完全平等線((0,0)と(1,1)を結ぶ線:図中の黒破線)とローレンツ曲線との間の面積(次の図の橙色部分)を2倍した値になります。

2-5. ジニ係数 | 統計学の時間 | 統計WEB (bellcurve.jp)

要約すると、

ジニ係数

完全平等線とローレンツ曲線との間の面積を2倍した値
学習者
学習者

ふむふむ、以下の斜線部分(オレンジ色)を求めて、その値を2倍したらいいんだね。

 

学習者
学習者

よし!求めよう!!
………どうやって。。

 

難しいため、段階をふんで、計算してみる。

・計算の段取り

統計Webを参考にしたところ、

\(求める面積部分=全体-不要な面積部分\)

としていた。

つまり、こういうこと。

全体から、

不要な面積部分を引いて、

求める面積部分を出す。

つまり、全体と不要な面積部分が分かれば良い。

・全体を求める

学習者
学習者

超絶簡単だね。

三角形なので、「底辺×高さ÷2」に当てはめる。

\(1×1×0.5=0.5\)

よって、全体は0.5となる。

 

途中経過

\(求める面積部分()=全体(0.5)-不要な面積部分()\)

 

・不要な面積部分を求める

学習者
学習者

複雑な形だね。この部分の面積を求めるのは、難しそう。

 

統計Webを参考にしたところ、

ローレンツ曲線のプロット部分で分けて計算していた。

つまり、こんな感じ。

※図では曲線になっているが、点と点まで直線になっているとする。

この色付きの部分を1つ1つ計算して、合計を出せば、不要な面積部分が分かる。

 

それぞれ計算していく。計算に必要な表↓

累積相対度数距離料金の累積相対度数
0.29540.131357614
0.54540.3337995426
0.76130.5874803909
0.91190.8087848948
11

黄色部分(三角形)

\(0.2954×0.1313×0.5=0.0194\)

青色部分(台形)

\((0.1313+0.3337)×(0.5454-0.2954)×0.5=0.0581\)

緑色部分(台形)

\((0.3337+0.5874)×(0.7613-0.5454)×0.5=0.0994\)

ピンク色部分(台形)

\((0.5874+0.8087)×(0.9119-0.7613)×0.5=0.1051\)

茶色部分(台形)

\((0.8087+1)×(1-0.9119)×0.5=0.0796\)

合計

\(0.0194+0.0581+0.0994+0.1051+0.0796=0.3616\)

 

不要な面積部分は、0.3616となった。

 

途中経過

\(求める面積部分()=全体(0.5)-不要な面積部分(0.3616)\)

 

・ジニ係数を計算する

全体(0.5)と不要な面積部分(0.3616)が求められた。

求める面積部分を計算する。

\(求める面積部分=0.5-0.3616\)

結果、0.1384となった。

学習者
学習者

で、この数値をどうするんだっけ。

ジニ係数 復習

完全平等線とローレンツ曲線との間の面積を2倍した値
学習者
学習者

完全平等線とローレンツ曲線との間の面積が、0.1384になったわけだ。後はこれを2倍すれば、ジニ係数が出るね。

2倍した結果、0.2768となった。

つまり、偏り具合を表すジニ係数が0.2768ということ。

ジニ係数の見方

統計Webを見ると、

ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さいことを表します。

2-5. ジニ係数 | 統計学の時間 | 統計WEB (bellcurve.jp)

今回のジニ係数は0.2768

比較対象がないため、なんともいえないが、0.5を偏り具合の大きい小さいの基準とするならば、偏りは小さい方と言えそうだ。

3.まとめ

分かったことをまとめる。

・ジニ係数を計算することで偏り具合を数値化できる

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました