【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】

ウーバーイーツ×沖縄市

【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】

1.座学

サイト統計Webの情報をもとに学習

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

2.実践

実際に手を動かすことで理解を深める。

度数分布表を作成

配達データの距離料金に着目し、項目をそれぞれ埋める。

・階級

統計Webでの説明文↓

①「階級」:度数を集計するための区間を表します。この度数分布表ではスクリーン数を50ごとに区切った区間が階級です。

これを距離料金で表すと、

階級
0以上50未満
50以上100未満
100以上150未満
150以上200未満
200以上250未満
250以上300未満
300以上350未満
350以上400未満
400以上450未満
450以上500未満
500以上550未満

上記のように分けられる。

・階級値

統計Webでの説明文↓

②「階級値」:その階級を代表する値のことで、階級の真ん中の値となります。スクリーン数の合計が「0以上50未満」の階級であれば、階級値は「25」となります。

これを距離料金で表すと、

階級階級値
0以上50未満25
50以上100未満75
100以上150未満125
150以上200未満175
200以上250未満225
250以上300未満275
300以上350未満325
350以上400未満375
400以上450未満425
450以上500未満475
500以上550未満525

上記のようになる。

・度数

統計Webでの説明文↓

③「度数」:各階級に含まれるデータ数を表します。例えば、都道府県内にある映画館のスクリーン数の合計が0以上50未満の都道府県は「24個」あるということを意味します。

度数をこれまでの配達データから表すと、

階級階級値度数
0以上50未満2523
50以上100未満7581
100以上150未満12588
150以上200未満17576
200以上250未満22553
250以上300未満27516
300以上350未満3255
350以上400未満3755
400以上450未満4252
450以上500未満4752
500以上550未満5251

上記のようになる。

・相対度数

統計Webでの説明文↓

④「相対度数」:各階級の度数が全体に占める割合のことです。スクリーン数の合計が「0以上50未満」の階級であれば「24÷47=0.5106(「47」は全ての都道府県の数)」となります。

すべての配達件数を352件とした場合の相対度数を求めると、

階級階級値度数相対度数
0以上50未満25230.0653
50以上100未満75810.2301
100以上150未満125880.25
150以上200未満175760.2159
200以上250未満225530.1506
250以上300未満275160.0455
300以上350未満32550.0142
350以上400未満37550.0142
400以上450未満42520.0057
450以上500未満47520.0057
500以上550未満52510.0028

上記のようになる。

・累積相対度数

統計Webでの説明文↓

⑤「累積相対度数」:その階級までの相対度数の全ての和(累積和)

累積相対度数を求めると、

階級階級値度数相対度数累積相対度数
0以上50未満25230.06530.0653
50以上100未満75810.23010.2954
100以上150未満125880.250.5454
150以上200未満175760.21590.7613
200以上250未満225530.15060.9119
250以上300未満275160.04550.9574
300以上350未満32550.01420.9716
350以上400未満37550.01420.9858
400以上450未満42520.00570.9915
450以上500未満47520.00570.9972
500以上550未満52510.00281

上記のようになる。

学習者
学習者

これで、度数分布表は完成だね。
特に難しいところはなく、すんなりできた。

ヒストグラムを作成

ヒストグラムを作成する。

・横軸と縦軸

統計Webでの説明文↓

横軸は「階級」を、縦軸は「度数」を表しています。

横軸「階級」、縦軸「度数」に設定する。

・度数を反映

各階級の度数をグラフに反映させる。

学習者
学習者

スプレッドシートのヒストグラムグラフでは、うまく作成できなかった。そのため、棒グラフで作成。

いちおう、ヒストグラム完成。

 

パレート図を作成

グラフに累積相対度数を反映させて、パレート図を作成する。

統計Webでの説明文↓

ヒストグラムの各階級の棒を度数が大きい順に左から並べ替え、その上に累積相対度数の折れ線グラフを重ねる場合もあります。このようなグラフを「パレート図」といいます。横軸は先ほどと同じ「階級」を、左側の縦軸は「度数」を、右側の縦軸は「累積相対度数」を表しています。

・度数で並び替え

度数の大きい順に並び変える。

学習者
学習者

左から3つまでの度数が大きいね。
全体の何割がその階級にあるのだろうか?

 

・累積相対度数を反映

上記のグラフに累積相対度数を反映させる。

グラフを2軸にし、右側の縦軸を累積相対度数に設定した。

学習者
学習者

このグラフからなにが分かるのだろう?

累積相対度数のグラフに着目してみる。

度数の大きい階級3つ目(150以上200未満)の累積相対度数の値を確認すると、

 

およそ0.7になる。

累積相対度数は、その階級までの相対度数の全ての和であることから、今回の累積相対度数0.7という値は、度数の上位3つの階級で全体の約7割を占めていることを表している。

学習者
学習者

へぇ~
ってことは、距離料金「50以上200未満」が全体の7割も占めているってことなんだね。

データの分布と呼称

データの分布を表す呼び方を見てみる。

データの分布を視覚的に捉えることができます。……データの分布の山(度数の多い部分)が左側に偏り、右に行くにつれて山がなだらかになっている(度数が少ない)ヒストグラムのことを「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布といいます。

今回作成したヒストグラム↓

左側に偏っているため、

「左側に偏った」「右に歪んだ」「右裾が長い」分布と言えそうだ。

3.まとめ

配達データの距離料金でヒストグラムを作成したことで分かったことをまとめる。

・距離料金「50以上200未満」が全体の7割を占めている in 沖縄市うるま市エリア

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました