【ウーバーイーツ】距離料金の分散を求めてみる【統計学習ログ】
0.疑問
これまでの統計学習でウーバーイーツ配達の距離料金の偏り具合は分かった。しかし、距離料金のばらつき具合は分からない。このばらつき具合はどのように求めるのだろう。
1.座学
サイト統計Webの情報をもとに学習
6-1. 分散 | 統計学の時間 | 統計WEB
統計学の「6-1. 分散」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。
分散はデータがどの程度平均の周りにばらついているかを表します。分散が小さいほどデータの値は平均値に集まっているということを、逆に大きいほどデータの値が平均値からばらついていることを表します。

学習者
分散は、歪度を求めるときにも登場してたね。

【ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】
【ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】 1.座学 サイト統計Webの情報をもとに学習 ■歪度(わいど) 分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。 ...
2.実践
実際に手を動かすことで理解を深める。
分散の公式
統計Webより分散の公式を確認する。
それぞれのデータと平均値の差を「2乗」たものの平均を考えます。2乗しているので、この値も必ず0以上となります。この値は「分散(Variance)」と呼ばれ……

学習者
公式を見ると難しそうだけど、説明文を見るといけそうな気がする。
説明文を参考に、分散をもとめていく。
・平均値の差
各距離料金データの平均値の差を出してみる。
番号 | 距離料金 | 平均(150.31)からの差 |
1 | 238 | 87.69 |
2 | 124 | -26.31 |
3 | 92 | -58.31 |
4 | 100 | -50.31 |
5 | 197 | 46.69 |
… | … | … |
352 | 95 | -55.31 |
上記のようになった。

学習者
次は、平均値の差を2乗したらいいんだね。
・平均値の差を2乗
平均値の差を2乗する。
番号 | 距離料金 | 平均値(150.31)からの差 | 「平均値からの差」2乗 |
1 | 238 | 87.69 | 7689.54 |
2 | 124 | -26.31 | 692.22 |
3 | 92 | -58.31 | 3400.06 |
4 | 100 | -50.31 | 2531.1 |
5 | 197 | 46.69 | 2179.96 |
… | … | … | … |
352 | 95 | -55.31 | 3059.2 |
上記のようになった。

学習者
2乗することで、すべて正の値になったね。
最後に、この値の平均値を出したらいいんだね。
・平均値の差の2乗の平均値
番号 | 距離料金 | 平均値(150.31)からの差 | 「平均値からの差」2乗 |
1 | 238 | 87.69 | 7689.54 |
2 | 124 | -26.31 | 692.22 |
3 | 92 | -58.31 | 3400.06 |
4 | 100 | -50.31 | 2531.1 |
5 | 197 | 46.69 | 2179.96 |
… | … | … | … |
352 | 95 | -55.31 | 3059.2 |
平均 | 6644.46 |
「平均値からの差の2乗」の平均値を算出したところ、6644.46となった。
つまり、分散は6644.46となる。

学習者
むむ、数字でかすぎないかな。
分散を他の方法で出してみる。
関数で分散を算出
スプレッドシートの関数VARで距離料金の分散を算出したところ、
番号 | 距離料金 |
1 | 238 |
2 | 124 |
3 | 92 |
4 | 100 |
5 | 197 |
… | … |
352 | 95 |
分散 | 6663.388169 |
6663.388になった。※はじめに計算した6644.46とのズレは、四捨五入したデータで計算していたため。

学習者
関数での結果も似たような数値になった。
3.まとめ
分かったことをまとめる。
分散は平均からのばらつき具合を表す
4.参考文献
統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。
筆者の配達データ
コメント