【ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】距離料金の歪度を求めてみる【統計学習ログ】

1.座学

サイト統計Webの情報をもとに学習

3-5. 歪度と尖度 | 統計学の時間 | 統計WEB
統計学の「3-5. 歪度と尖度」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。

■歪度(わいど)
分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。

3-5. 歪度と尖度 | 統計学の時間 | 統計WEB (bellcurve.jp)

2.実践

実際に手を動かすことで理解を深める。

距離料金のヒストグラム

距離料金のヒストグラムを確認する。

・ヒストグラム

階級階級値度数
0以上50未満2523
50以上100未満7581
100以上150未満12588
150以上200未満17576
200以上250未満22553
250以上300未満27516
300以上350未満3255
350以上400未満3755
400以上450未満4252
450以上500未満4752
500以上550未満5251

学習者
学習者

正規分布と一致しないことは明らかだね。

距離料金の歪度を予想してみる。

・距離料金の歪度を予想

歪度の説明文を統計Webで確認すると、

「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値を、「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値をとります。左右対称の分布(例えば正規分布)の場合には0になります。

3-5. 歪度と尖度 | 統計学の時間 | 統計WEB (bellcurve.jp)

この説明文をふまえて、もう一度、距離料金のヒストグラムを見ると、

学習者
学習者

左に偏っている。ということは、歪度は正の値を取ると予想できるね。

距離料金の歪度 予想

距離料金のヒストグラムは左に偏っているため、歪度は正の値を取る。

歪度を算出する

公式を使用して、歪度を求める。

歪度の公式

サンプルサイズを\(n\)、各データ\(x_i(i:1,2,…,n)\)の平均値を\(\overline{x}\)、標準偏差を\(s\)とすると歪度は次の式から求められます。

 \displaystyle \frac{n}{(n - 1)(n - 2)} \sum_{i = 1}^n \left(\frac{x_i - \overline{x}}{s}\right)^3

 

 

 

3-5. 歪度と尖度 | 統計学の時間 | 統計WEB (bellcurve.jp)

・公式に当てはめる

公式を使うにあたって、必要な情報は以下。

・サンプルサイズ\((n)\)
・各データ\((x_i(i:1,2,…,n))\)
・各データの平均\((\overline{x})\)
・標準偏差\((s)\)

 

・サンプルサイズ\((n)\)

距離料金のデータは全部で352個。よって、

\(n=352\)

・各データ\((x_i(i:1,2,…,352))\)

番号距離料金
1238
2124
392
4100
5197
35295

・各データの平均\((\overline{x})\)

前々回記事で求めた距離料金の平均を使用する。よって、

\(\overline{x}=150.31\)

【ウーバーイーツ】距離料金の平均・中央値・モードの関係をみる【統計学習ログ】
【ウーバーイーツ】距離料金の平均・中央値・モードの関係をみる【統計学習ログ】 1.座学 サイト統計Webの情報をもとに学習 数値からなるデータがある場合に、そのデータを端的に表す値のことを「代表値」といいます。代表...

・標準偏差\((s)\)

???

学習者
学習者

標準偏差?
聞いたことあるけど、求め方は分からない。

歪度を算出するために、標準偏差を出さなければいけなくなった。

・標準偏差を算出

統計Webで標準偏差の求め方を確認。

分散の正の平方根のことを「標準偏差」と言います。

6-2. 標準偏差 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

「分散」が分からん。。

統計Webで分散の求め方を確認。

それぞれのデータと平均値の差を「2乗」したものの平均を考えます。2乗しているので、この値も必ず0以上となります。この値は「分散(Variance)」と呼ばれ、\(V\)で表すこともできます。

\(n\)個のデータを\(x_i(i:1,2,…,n)\)、その平均値を\(\overline{x}\)(エックスバー)とすると、分散\(V\)は下の式から求められます。

 V=\displaystyle \frac{1}{n} \displaystyle \sum_{i=1}^{n} \left( x_i -\bar{x} \right)^2

6-1. 分散 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

う、難しそう。ゆっくりやろう。

 

分散を求める

それぞれのデータと平均値の差を「2乗」したものの平均を考えます。

6-1. 分散 | 統計学の時間 | 統計WEB (bellcurve.jp)

まずは、「それぞれのデータと平均値の差」を求めてみる。

番号距離料金平均(150.31)からの差
123887.69
212426.31
39258.31
410050.31
519746.69
3529555.31
学習者
学習者

スプレッドシートの関数ABSで一発だった!

それぞれのデータと平均値の差を「2乗」したものの平均を考えます。

6-1. 分散 | 統計学の時間 | 統計WEB (bellcurve.jp)

次に、平均値の差を2乗したものの平均を求める。

番号距離料金平均(150.31)からの差「平均からの差」を2乗
123887.697689.54
212426.31692.22
39258.313400.06
410050.312531.1
519746.692179.96
3529555.313059.2
学習者
学習者

これは、簡単だね!
でも、次はどうしたら、、

公式を確認すると、

 V=\displaystyle \frac{1}{n} \displaystyle \sum_{i=1}^{n} \left( x_i -\bar{x} \right)^2

 

 

各データの「平均からの差」を「2乗」した後に、合計を出している。その後、データの数(352)で割っている。

学習者
学習者

先ほど求めた「平均からの差を2乗した数値」の合計を出してみよう!

番号距離料金平均(150.31)からの差「平均からの差」を2乗
123887.697689.54
212426.31692.22
39258.313400.06
410050.312531.1
519746.692179.96
3529555.313059.2
合計2338850.62
学習者
学習者

大きい数値になった。この数値をデータの数(352)で割ったらいい、、つまり、平均を出したらいいんだね。

番号距離料金平均(150.31)からの差「平均からの差」を2乗
123887.697689.54
212426.31692.22
39258.313400.06
410050.312531.1
519746.692179.96
3529555.313059.2
合計2338850.62
平均6644.46

結果、6644.46になった。

つまり、距離料金の分散は、6644.46ということ。

学習者
学習者

よっしゃ!距離料金の分散の値が分かったぞ!
……で、分散の値を求めて、なにがしたかったんだっけ?

 

統計Webで標準偏差の求め方を再確認。

分散の正の平方根のことを「標準偏差」と言います。

6-2. 標準偏差 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

そうだった!標準偏差を求めるのに、分散の値が必要なんだった。

 

改めて標準偏差を求める

上記の公式に当てはめる。

\(標準偏差=\sqrt{6644.46}\)

結果、

つまり、標準偏差は81.51ということ。

学習者
学習者

よし!標準偏差が分かった!

ん、、なんで標準偏差が必要なんだっけ?

歪度の公式を再確認。

サンプルサイズを\(n\)、各データ\(x_i(i:1,2,…,n)\)の平均値を\(\overline{x}\)、標準偏差を\(s\)とすると歪度は次の式から求められます。

 \displaystyle \frac{n}{(n - 1)(n - 2)} \sum_{i = 1}^n \left(\frac{x_i - \overline{x}}{s}\right)^3

 

 

 

3-5. 歪度と尖度 | 統計学の時間 | 統計WEB (bellcurve.jp)

学習者
学習者

そうだった!歪度を求めるのに、標準偏差が必要なんだった!

必要な情報がそろったため、歪度を計算する。

・歪度を算出

計算する前にそろえた情報を確認。

・サンプルサイズ\((n)\)→352
・各データ\((x_i(i:1,2,…,n))\)→スプレッドシートより
・各データの平均\((\overline{x})\)→150.31
・標準偏差\((s)\)→81.51

公式に当てはめて計算していく。

 \displaystyle \frac{n}{(n - 1)(n - 2)} \sum_{i = 1}^n \left(\frac{x_i - \overline{x}}{s}\right)^3

 

 

 

このままだと、ややこしいので、シグマ部分から計算してみる。

\(\sum_{i=1}^n(\frac{x_i-\overline{x}}{s})^3\)

上記の括弧の中を言語化すると、

分子部分は、「個別のデータを全体のデータの平均値で引いたもの」。つまり、ここ。

番号距離料金平均(150.31)からの差
123887.69
2124-26.31
392-58.31
4100-50.31
519746.69
35295-55.31

で、分母に標準偏差(81.51)があるから、こうなる。

番号距離料金平均(150.31)からの差←標準偏差(81.51)で割る
123887.691.08
2124-26.31-0.32
392-58.31-0.72
4100-50.31-0.62
519746.690.57
35295-55.31-0.68

そして、標準偏差で割った値を3乗、

番号距離料金平均からの差←標準偏差で割る←3乗
123887.691.081.26
2124-26.31-0.32-0.03
392-58.31-0.72-0.37
4100-50.31-0.62-0.24
519746.690.570.19
35295-55.31-0.68-0.31

最後に、この3乗した各数値の合計を出す。

番号距離料金平均からの差←標準偏差で割る←3乗
123887.691.081.26
2124-26.31-0.32-0.03
392-58.31-0.72-0.37
4100-50.31-0.62-0.24
519746.690.570.19
35295-55.31-0.68-0.31
合計 412.24

結果、412.24になった。

つまり、シグマ部分が412.24ということ。

後は、以下を計算するのみ。

\(\frac{352}{(352-1)(352-2)}×412.24\)

結果、

つまり、距離料金の歪度が1.18ということ。

学習者
学習者

やっと歪度を算出できた!
で、この歪度1.18はどういう意味があるんだっけ?

歪度が正の値を示した場合は、左に偏ったヒストグラムを表し、負の値を示した場合は、右に偏ったヒストグラムを表す。

もう一度、距離料金のヒストグラムを確認すると、

明らかに左に偏っているため、歪度は正の値になる。

つまり、今回算出した歪度1.18は、正しい値と言えそうだ。

学習者
学習者

ふぅ、大変だったけど、なんとかできた。

3.まとめ

分かったことをまとめる。

・歪度を求めることで、正規分布からのズレが分かる
・分散や標準偏差の求め方

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました