【ウーバーイーツ】距離料金の分散を求めてみる【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】距離料金の分散を求めてみる【統計学習ログ】

0.疑問

これまでの統計学習でウーバーイーツ配達の距離料金の偏り具合は分かった。しかし、距離料金のばらつき具合は分からない。このばらつき具合はどのように求めるのだろう。

1.座学

サイト統計Webの情報をもとに学習

6-1. 分散 | 統計学の時間 | 統計WEB
統計学の「6-1. 分散」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。

分散はデータがどの程度平均の周りにばらついているかを表します。分散が小さいほどデータの値は平均値に集まっているということを、逆に大きいほどデータの値が平均値からばらついていることを表します。

6-1. 分散 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

分散は、歪度を求めるときにも登場してたね。

【ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】
【ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】 1.座学 サイト統計Webの情報をもとに学習 ■歪度(わいど) 分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。 ...

 

2.実践

実際に手を動かすことで理解を深める。

分散の公式

統計Webより分散の公式を確認する。

それぞれのデータと平均値の差を「2乗」たものの平均を考えます。2乗しているので、この値も必ず0以上となります。この値は「分散(Variance)」と呼ばれ……

 V=\displaystyle \frac{1}{n} \displaystyle \sum_{i=1}^{n} \left( x_i -\bar{x} \right)^2

6-1. 分散 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

公式を見ると難しそうだけど、説明文を見るといけそうな気がする。

 

説明文を参考に、分散をもとめていく。

・平均値の差

各距離料金データの平均値の差を出してみる。

番号距離料金平均(150.31)からの差
123887.69
2124-26.31
392-58.31
4100-50.31
519746.69
35295-55.31

上記のようになった。

学習者
学習者

次は、平均値の差を2乗したらいいんだね。

 

・平均値の差を2乗

平均値の差を2乗する。

番号距離料金平均値(150.31)からの差「平均値からの差」2乗
123887.697689.54
2124-26.31692.22
392-58.313400.06
4100-50.312531.1
519746.692179.96
35295-55.313059.2

上記のようになった。

学習者
学習者

2乗することで、すべて正の値になったね。
最後に、この値の平均値を出したらいいんだね。

 

・平均値の差の2乗の平均値

番号距離料金平均値(150.31)からの差「平均値からの差」2乗
123887.697689.54
2124-26.31692.22
392-58.313400.06
4100-50.312531.1
519746.692179.96
35295-55.313059.2
平均6644.46

「平均値からの差の2乗」の平均値を算出したところ、6644.46となった。

つまり、分散は6644.46となる。

学習者
学習者

むむ、数字でかすぎないかな。

 

分散を他の方法で出してみる。

関数で分散を算出

スプレッドシートの関数VARで距離料金の分散を算出したところ、

番号距離料金
1238
2124
392
4100
5197
35295
分散6663.388169

6663.388になった。※はじめに計算した6644.46とのズレは、四捨五入したデータで計算していたため。

学習者
学習者

関数での結果も似たような数値になった。

3.まとめ

分かったことをまとめる。

分散は平均からのばらつき具合を表す

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました