【ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】
1.座学
サイト統計Webの情報をもとに学習
■歪度(わいど)
分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。
2.実践
実際に手を動かすことで理解を深める。
距離料金のヒストグラム
距離料金のヒストグラムを確認する。
・ヒストグラム
階級 | 階級値 | 度数 |
0以上50未満 | 25 | 23 |
50以上100未満 | 75 | 81 |
100以上150未満 | 125 | 88 |
150以上200未満 | 175 | 76 |
200以上250未満 | 225 | 53 |
250以上300未満 | 275 | 16 |
300以上350未満 | 325 | 5 |
350以上400未満 | 375 | 5 |
400以上450未満 | 425 | 2 |
450以上500未満 | 475 | 2 |
500以上550未満 | 525 | 1 |

正規分布と一致しないことは明らかだね。
距離料金の歪度を予想してみる。
・距離料金の歪度を予想
歪度の説明文を統計Webで確認すると、
「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値を、「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値をとります。左右対称の分布(例えば正規分布)の場合には0になります。
この説明文をふまえて、もう一度、距離料金のヒストグラムを見ると、

左に偏っている。ということは、歪度は正の値を取ると予想できるね。
距離料金の歪度 予想
歪度を算出する
公式を使用して、歪度を求める。
歪度の公式
サンプルサイズを\(n\)、各データ\(x_i(i:1,2,…,n)\)の平均値を\(\overline{x}\)、標準偏差を\(s\)とすると歪度は次の式から求められます。
・公式に当てはめる
公式を使うにあたって、必要な情報は以下。
・各データ\((x_i(i:1,2,…,n))\)
・各データの平均\((\overline{x})\)
・標準偏差\((s)\)
・サンプルサイズ\((n)\)
距離料金のデータは全部で352個。よって、
\(n=352\)
・各データ\((x_i(i:1,2,…,352))\)
番号 | 距離料金 |
1 | 238 |
2 | 124 |
3 | 92 |
4 | 100 |
5 | 197 |
… | … |
352 | 95 |
・各データの平均\((\overline{x})\)
前々回記事で求めた距離料金の平均を使用する。よって、
\(\overline{x}=150.31\)

・標準偏差\((s)\)
???

標準偏差?
聞いたことあるけど、求め方は分からない。
歪度を算出するために、標準偏差を出さなければいけなくなった。
・標準偏差を算出
統計Webで標準偏差の求め方を確認。
分散の正の平方根のことを「標準偏差」と言います。

「分散」が分からん。。
統計Webで分散の求め方を確認。
それぞれのデータと平均値の差を「2乗」したものの平均を考えます。2乗しているので、この値も必ず0以上となります。この値は「分散(Variance)」と呼ばれ、\(V\)で表すこともできます。
\(n\)個のデータを\(x_i(i:1,2,…,n)\)、その平均値を\(\overline{x}\)(エックスバー)とすると、分散\(V\)は下の式から求められます。

う、難しそう。ゆっくりやろう。
分散を求める
それぞれのデータと平均値の差を「2乗」したものの平均を考えます。
まずは、「それぞれのデータと平均値の差」を求めてみる。
番号 | 距離料金 | 平均(150.31)からの差 |
1 | 238 | 87.69 |
2 | 124 | 26.31 |
3 | 92 | 58.31 |
4 | 100 | 50.31 |
5 | 197 | 46.69 |
… | … | … |
352 | 95 | 55.31 |

スプレッドシートの関数ABSで一発だった!
それぞれのデータと平均値の差を「2乗」したものの平均を考えます。
次に、平均値の差を2乗したものの平均を求める。
番号 | 距離料金 | 平均(150.31)からの差 | 「平均からの差」を2乗 |
1 | 238 | 87.69 | 7689.54 |
2 | 124 | 26.31 | 692.22 |
3 | 92 | 58.31 | 3400.06 |
4 | 100 | 50.31 | 2531.1 |
5 | 197 | 46.69 | 2179.96 |
… | … | … | … |
352 | 95 | 55.31 | 3059.2 |

これは、簡単だね!
でも、次はどうしたら、、
公式を確認すると、
各データの「平均からの差」を「2乗」した後に、合計を出している。その後、データの数(352)で割っている。

先ほど求めた「平均からの差を2乗した数値」の合計を出してみよう!
番号 | 距離料金 | 平均(150.31)からの差 | 「平均からの差」を2乗 |
1 | 238 | 87.69 | 7689.54 |
2 | 124 | 26.31 | 692.22 |
3 | 92 | 58.31 | 3400.06 |
4 | 100 | 50.31 | 2531.1 |
5 | 197 | 46.69 | 2179.96 |
… | … | … | … |
352 | 95 | 55.31 | 3059.2 |
合計 | 2338850.62 |

大きい数値になった。この数値をデータの数(352)で割ったらいい、、つまり、平均を出したらいいんだね。
番号 | 距離料金 | 平均(150.31)からの差 | 「平均からの差」を2乗 |
1 | 238 | 87.69 | 7689.54 |
2 | 124 | 26.31 | 692.22 |
3 | 92 | 58.31 | 3400.06 |
4 | 100 | 50.31 | 2531.1 |
5 | 197 | 46.69 | 2179.96 |
… | … | … | … |
352 | 95 | 55.31 | 3059.2 |
合計 | 2338850.62 | ||
平均 | 6644.46 |
結果、6644.46になった。
つまり、距離料金の分散は、6644.46ということ。

よっしゃ!距離料金の分散の値が分かったぞ!
……で、分散の値を求めて、なにがしたかったんだっけ?
統計Webで標準偏差の求め方を再確認。
分散の正の平方根のことを「標準偏差」と言います。

そうだった!標準偏差を求めるのに、分散の値が必要なんだった。
改めて標準偏差を求める
上記の公式に当てはめる。
\(標準偏差=\sqrt{6644.46}\)
結果、
つまり、標準偏差は81.51ということ。

よし!標準偏差が分かった!
ん、、なんで標準偏差が必要なんだっけ?
歪度の公式を再確認。
サンプルサイズを\(n\)、各データ\(x_i(i:1,2,…,n)\)の平均値を\(\overline{x}\)、標準偏差を\(s\)とすると歪度は次の式から求められます。

そうだった!歪度を求めるのに、標準偏差が必要なんだった!
必要な情報がそろったため、歪度を計算する。
・歪度を算出
計算する前にそろえた情報を確認。
・各データ\((x_i(i:1,2,…,n))\)→スプレッドシートより
・各データの平均\((\overline{x})\)→150.31
・標準偏差\((s)\)→81.51
公式に当てはめて計算していく。
このままだと、ややこしいので、シグマ部分から計算してみる。
\(\sum_{i=1}^n(\frac{x_i-\overline{x}}{s})^3\)
上記の括弧の中を言語化すると、
分子部分は、「個別のデータを全体のデータの平均値で引いたもの」。つまり、ここ。
番号 | 距離料金 | 平均(150.31)からの差 |
1 | 238 | 87.69 |
2 | 124 | -26.31 |
3 | 92 | -58.31 |
4 | 100 | -50.31 |
5 | 197 | 46.69 |
… | … | … |
352 | 95 | -55.31 |
で、分母に標準偏差(81.51)があるから、こうなる。
番号 | 距離料金 | 平均(150.31)からの差 | ←標準偏差(81.51)で割る |
1 | 238 | 87.69 | 1.08 |
2 | 124 | -26.31 | -0.32 |
3 | 92 | -58.31 | -0.72 |
4 | 100 | -50.31 | -0.62 |
5 | 197 | 46.69 | 0.57 |
… | … | … | |
352 | 95 | -55.31 | -0.68 |
そして、標準偏差で割った値を3乗、
番号 | 距離料金 | 平均からの差 | ←標準偏差で割る | ←3乗 |
1 | 238 | 87.69 | 1.08 | 1.26 |
2 | 124 | -26.31 | -0.32 | -0.03 |
3 | 92 | -58.31 | -0.72 | -0.37 |
4 | 100 | -50.31 | -0.62 | -0.24 |
5 | 197 | 46.69 | 0.57 | 0.19 |
… | … | … | … | … |
352 | 95 | -55.31 | -0.68 | -0.31 |
最後に、この3乗した各数値の合計を出す。
番号 | 距離料金 | 平均からの差 | ←標準偏差で割る | ←3乗 |
1 | 238 | 87.69 | 1.08 | 1.26 |
2 | 124 | -26.31 | -0.32 | -0.03 |
3 | 92 | -58.31 | -0.72 | -0.37 |
4 | 100 | -50.31 | -0.62 | -0.24 |
5 | 197 | 46.69 | 0.57 | 0.19 |
… | … | … | … | … |
352 | 95 | -55.31 | -0.68 | -0.31 |
合計 | 412.24 |
結果、412.24になった。
つまり、シグマ部分が412.24ということ。
後は、以下を計算するのみ。
\(\frac{352}{(352-1)(352-2)}×412.24\)
結果、
つまり、距離料金の歪度が1.18ということ。

やっと歪度を算出できた!
で、この歪度1.18はどういう意味があるんだっけ?
歪度が正の値を示した場合は、左に偏ったヒストグラムを表し、負の値を示した場合は、右に偏ったヒストグラムを表す。
もう一度、距離料金のヒストグラムを確認すると、
明らかに左に偏っているため、歪度は正の値になる。
つまり、今回算出した歪度1.18は、正しい値と言えそうだ。

ふぅ、大変だったけど、なんとかできた。
3.まとめ
分かったことをまとめる。
・分散や標準偏差の求め方
4.参考文献
筆者の配達データ
コメント