【ウーバーイーツ】配達データの距離料金でローレンツ曲線を作成してみる【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】配達データの距離料金でローレンツ曲線を作成してみる【統計学習ログ】

0.疑問

前回、配達データの距離料金で度数分布表・ヒストグラムを作成した。

【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】
【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】 1.座学 サイト統計Webの情報をもとに学習 2.実践 実際に手を動かすことで理解を深める。 度数分布表を作成 配達データの距離料金に着目し、...

度数分布表・ヒストグラムを見たところ、明らかに偏りがあった。

しかし、偏りの度合いは、はっきり分からない。

偏りの度合いは、どのように表すのだろうか。

1.座学

サイト統計Webの情報をもとに学習

2-4. ローレンツ曲線 | 統計学の時間 | 統計WEB
統計学の「2-4. ローレンツ曲線」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。

 

キーワード:ローレンツ曲線

「偏り=不均等さ」を表すための曲線を「ローレンツ曲線」といいます。

2-4. ローレンツ曲線 | 統計学の時間 | 統計WEB (bellcurve.jp)

2.実践

実際に手を動かすことで理解を深める。

度数分布表の確認

前回作成した度数分布表を再確認する。

・度数分布表

階級階級値度数相対度数累積相対度数
0以上50未満25230.06530.0653
50以上100未満75810.23010.2954
100以上150未満125880.250.5454
150以上200未満175760.21590.7613
200以上250未満225530.15060.9119
250以上300未満275160.04550.9574
300以上350未満32550.01420.9716
350以上400未満37550.01420.9858
400以上450未満42520.00570.9915
450以上500未満47520.00570.9972
500以上550未満52510.00281
学習者
学習者

度数分布表の累積相対度数を見ると、距離料金0以上150未満に全体の約55%を占めていることが分かる。
つまり、残りの45%が距離料金150以上550未満にあると分かる。

学習者
学習者

明らかに前半部分に偏っているね。

ローレンツ曲線に必要なデータ

ローレンツ曲線の作成に必要なデータを確認すると、

ローレンツ曲線を作るためには2つの累積相対度数が必要です。1つ目は各階級の度数の累積相対度数です。
……
2つ目は、各階級に属する値の合計の累積相対度数です。

2-4. ローレンツ曲線 | 統計学の時間 | 統計WEB (bellcurve.jp)

必要なデータをまとめると、

・各階級の度数の累積相対度数
・各階級に属する値の合計の累積相対度数

上記2つが、ローレンツ曲線作成の材料になる。

 

・各階級の度数の累積相対度数

前述の表で確認すると、

階級階級値度数相対度数累積相対度数
0以上50未満25230.06530.0653
50以上100未満75810.23010.2954
100以上150未満125880.250.5454
150以上200未満175760.21590.7613
200以上250未満225530.15060.9119
250以上300未満275160.04550.9574
300以上350未満32550.01420.9716
350以上400未満37550.01420.9858
400以上450未満42520.00570.9915
450以上500未満47520.00570.9972
500以上550未満52510.00281

上記表の水色部分が、各階級の度数の累積相対度数になる。

学習者
学習者

これは、前回出したものといっしょだから簡単だね。

・各階級に属する値の合計の累積相対度数

学習者
学習者

ちょっと難しそうだ。段階をふんで、ゆっくりやろう。

まず、各階級に属する値の合計を表に追加してみる。

階級度数累積相対度数各階級の距離料金合計
0以上50未満230.0653842
50以上100未満810.29546108
100以上150未満880.545410711
150以上200未満760.761313422
200以上250未満530.911911709
250以上300未満160.95744278
300以上350未満50.97161629
350以上400未満50.98581890
400以上450未満20.9915844
450以上500未満20.9972955
500以上550未満11521
学習者
学習者

階級0以上50未満の”各階級の距離料金合計”を見てみると、842になっている。この数値は、階級0以上50未満に含まれる距離料金のデータの合計になるってわけだね。

 

次に、各階級の距離料金の相対度数を出してみる。この数値は、累積相対度数を計算するために必要。

階級度数累積相対度数各階級の距離料金合計各階級の距離料金の相対度数
0以上50未満230.06538420.01591411669
50以上100未満810.295461080.1154434973
100以上150未満880.5454107110.2024419286
150以上200未満760.7613134220.2536808482
200以上250未満530.9119117090.221304504
250以上300未満160.957442780.08085580903
300以上350未満50.971616290.0307887127
350以上400未満50.985818900.03572171086
400以上450未満20.99158440.01595191744
450以上500未満20.99729550.01804985919
500以上550未満115210.009847095957

各階級の距離料金の相対度数は、以下のように求めた。

\(各階級の距離料金の相対度数=各階級の距離料金合計÷すべての階級の距離料金合計\)

すべての階級の距離料金合計は、52909となった。

 

最後に、距離料金の累積相対度数を出す。

階級度数累積相対度数距離料金合計距離料金の
相対度数
距離料金の
累積相対度数
0以上50未満230.06538420.015914116690.01591411669
50以上100未満810.295461080.11544349730.131357614
100以上150未満880.5454107110.20244192860.3337995426
150以上200未満760.7613134220.25368084820.5874803909
200以上250未満530.9119117090.2213045040.8087848948
250以上300未満160.957442780.080855809030.8896407039
300以上350未満50.971616290.03078871270.9204294165
350以上400未満50.985818900.035721710860.9561511274
400以上450未満20.99158440.015951917440.9721030449
450以上500未満20.99729550.018049859190.990152904
500以上550未満115210.0098470959571
学習者
学習者

距離料金の累積相対度数が出た!
これで、ローレンツ曲線に必要な材料がそろったね!

 

復習 ローレンツ曲線に必要な材料

・各階級の度数の累積相対度数
・各階級に属する値の合計の累積相対度数

 

ローレンツ曲線を作成

ローレンツ曲線を作成する前に、どのような曲線になるか予想してみよう。

統計Webより、見本の図を引用。

2-4. ローレンツ曲線 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

詳しいことは分からないけど、上記のグラフにある完全平等線からかなり離れた曲線になるんじゃないかな。

 

ローレンツ曲線を作成してみる。

学習者
学習者

ゆるやかな曲線だね。

完全平等線を加える。

学習者
学習者

今回のローレンツ曲線は、完全平等線と重なっていないことから、距離料金の分布に偏りがあると分かるね。

学習者
学習者

ローレンツ曲線と完全平等線の比較から、直観的に偏り具合は分かる。でも、偏り具合の具体的な数値が分からないから、他と比較するときにめんどくさくなりそう。

 

ローレンツ曲線を作成した結果、直観的な偏り具合が分かった。しかし、偏り具合を数値化できていないため、他と比較しづらそうだ。

上記は、次回の課題となる。

3.まとめ

分かったこと・分からなかったことをまとめる。

 

分かったこと

・ローレンツ曲線を作成すると、偏り具合が直観的に分かる。
分からなかったこと
・偏り具合の数値

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました