【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】
1.座学
サイト統計Webの情報をもとに学習
2.実践
実際に手を動かすことで理解を深める。
度数分布表を作成
配達データの距離料金に着目し、項目をそれぞれ埋める。
・階級
統計Webでの説明文↓
①「階級」:度数を集計するための区間を表します。この度数分布表ではスクリーン数を50ごとに区切った区間が階級です。
これを距離料金で表すと、
階級 |
0以上50未満 |
50以上100未満 |
100以上150未満 |
150以上200未満 |
200以上250未満 |
250以上300未満 |
300以上350未満 |
350以上400未満 |
400以上450未満 |
450以上500未満 |
500以上550未満 |
上記のように分けられる。
・階級値
統計Webでの説明文↓
②「階級値」:その階級を代表する値のことで、階級の真ん中の値となります。スクリーン数の合計が「0以上50未満」の階級であれば、階級値は「25」となります。
これを距離料金で表すと、
階級 | 階級値 |
0以上50未満 | 25 |
50以上100未満 | 75 |
100以上150未満 | 125 |
150以上200未満 | 175 |
200以上250未満 | 225 |
250以上300未満 | 275 |
300以上350未満 | 325 |
350以上400未満 | 375 |
400以上450未満 | 425 |
450以上500未満 | 475 |
500以上550未満 | 525 |
上記のようになる。
・度数
統計Webでの説明文↓
③「度数」:各階級に含まれるデータ数を表します。例えば、都道府県内にある映画館のスクリーン数の合計が0以上50未満の都道府県は「24個」あるということを意味します。
度数をこれまでの配達データから表すと、
階級 | 階級値 | 度数 |
0以上50未満 | 25 | 23 |
50以上100未満 | 75 | 81 |
100以上150未満 | 125 | 88 |
150以上200未満 | 175 | 76 |
200以上250未満 | 225 | 53 |
250以上300未満 | 275 | 16 |
300以上350未満 | 325 | 5 |
350以上400未満 | 375 | 5 |
400以上450未満 | 425 | 2 |
450以上500未満 | 475 | 2 |
500以上550未満 | 525 | 1 |
上記のようになる。
・相対度数
統計Webでの説明文↓
④「相対度数」:各階級の度数が全体に占める割合のことです。スクリーン数の合計が「0以上50未満」の階級であれば「24÷47=0.5106(「47」は全ての都道府県の数)」となります。
すべての配達件数を352件とした場合の相対度数を求めると、
階級 | 階級値 | 度数 | 相対度数 |
0以上50未満 | 25 | 23 | 0.0653 |
50以上100未満 | 75 | 81 | 0.2301 |
100以上150未満 | 125 | 88 | 0.25 |
150以上200未満 | 175 | 76 | 0.2159 |
200以上250未満 | 225 | 53 | 0.1506 |
250以上300未満 | 275 | 16 | 0.0455 |
300以上350未満 | 325 | 5 | 0.0142 |
350以上400未満 | 375 | 5 | 0.0142 |
400以上450未満 | 425 | 2 | 0.0057 |
450以上500未満 | 475 | 2 | 0.0057 |
500以上550未満 | 525 | 1 | 0.0028 |
上記のようになる。
・累積相対度数
統計Webでの説明文↓
⑤「累積相対度数」:その階級までの相対度数の全ての和(累積和)
累積相対度数を求めると、
階級 | 階級値 | 度数 | 相対度数 | 累積相対度数 |
0以上50未満 | 25 | 23 | 0.0653 | 0.0653 |
50以上100未満 | 75 | 81 | 0.2301 | 0.2954 |
100以上150未満 | 125 | 88 | 0.25 | 0.5454 |
150以上200未満 | 175 | 76 | 0.2159 | 0.7613 |
200以上250未満 | 225 | 53 | 0.1506 | 0.9119 |
250以上300未満 | 275 | 16 | 0.0455 | 0.9574 |
300以上350未満 | 325 | 5 | 0.0142 | 0.9716 |
350以上400未満 | 375 | 5 | 0.0142 | 0.9858 |
400以上450未満 | 425 | 2 | 0.0057 | 0.9915 |
450以上500未満 | 475 | 2 | 0.0057 | 0.9972 |
500以上550未満 | 525 | 1 | 0.0028 | 1 |
上記のようになる。

これで、度数分布表は完成だね。
特に難しいところはなく、すんなりできた。
ヒストグラムを作成
ヒストグラムを作成する。
・横軸と縦軸
統計Webでの説明文↓
横軸は「階級」を、縦軸は「度数」を表しています。
横軸「階級」、縦軸「度数」に設定する。
・度数を反映
各階級の度数をグラフに反映させる。

スプレッドシートのヒストグラムグラフでは、うまく作成できなかった。そのため、棒グラフで作成。
いちおう、ヒストグラム完成。
パレート図を作成
グラフに累積相対度数を反映させて、パレート図を作成する。
統計Webでの説明文↓
ヒストグラムの各階級の棒を度数が大きい順に左から並べ替え、その上に累積相対度数の折れ線グラフを重ねる場合もあります。このようなグラフを「パレート図」といいます。横軸は先ほどと同じ「階級」を、左側の縦軸は「度数」を、右側の縦軸は「累積相対度数」を表しています。
・度数で並び替え
度数の大きい順に並び変える。

左から3つまでの度数が大きいね。
全体の何割がその階級にあるのだろうか?
・累積相対度数を反映
上記のグラフに累積相対度数を反映させる。
グラフを2軸にし、右側の縦軸を累積相対度数に設定した。

このグラフからなにが分かるのだろう?
累積相対度数のグラフに着目してみる。
度数の大きい階級3つ目(150以上200未満)の累積相対度数の値を確認すると、
およそ0.7になる。
累積相対度数は、その階級までの相対度数の全ての和であることから、今回の累積相対度数0.7という値は、度数の上位3つの階級で全体の約7割を占めていることを表している。

へぇ~
ってことは、距離料金「50以上200未満」が全体の7割も占めているってことなんだね。
データの分布と呼称
データの分布を表す呼び方を見てみる。
データの分布を視覚的に捉えることができます。……データの分布の山(度数の多い部分)が左側に偏り、右に行くにつれて山がなだらかになっている(度数が少ない)ヒストグラムのことを「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布といいます。
今回作成したヒストグラム↓
左側に偏っているため、
「左側に偏った」「右に歪んだ」「右裾が長い」分布と言えそうだ。
3.まとめ
配達データの距離料金でヒストグラムを作成したことで分かったことをまとめる。
4.参考文献
筆者の配達データ
コメント