【ウーバーイーツ】1日当たりの高額チップ数とポアソン分布【沖縄市】
※ポアソン分布を使いたかっただけの記事
概要
高額チップの基準を決める。
↓
高額チップが発生した日数を集計し、①ヒストグラムを作成する。
↓
上記の平均(期待値)をパラメータとして、②ポアソン分布を作成する。
↓
①と②を比較し、当てはまり具合を確かめる。
使用するデータ
使用するデータは、私の配達データ。
期間は、2021年5月10日~10月31日。
上記期間の総配達件数は、1528件。※ ダブルピックも1件とカウント。
高額チップの基準
高額チップの基準を決める。
チップが発生した配達データの概要を見てみる。
tip <- scan("clipboard") Read 587 items #チップが発生した配達の数 > summary(tip) Min. 1st Qu. Median Mean 3rd Qu. Max. 7.0 104.0 174.0 226.9 301.0 1175.0 > sum(tip >= 301) [1] 147 #高額チップの件数
チップ額の概要を表にする。
最小値 | 25%点 | 中央値 | 平均 | 75%点 | 最大値 |
7.0 | 104.0 | 174.0 | 226.9 | 301.0 | 1175.0 |
301円以上のチップ額が全体の4分の1を占めていることが分かった。
これより、チップ額301円以上のデータを「高額チップ」とする。
高額チップの発生日数
1日の高額チップ数と日数を表にしてみる。
1日の高額チップ数 | 0 | 1 | 2 | 3 | 4 |
日数 | 62 | 65 | 30 | 6 | 1 |
グラフにしてみる。
1日の高額チップ数2以降から急激に減少することが分かった。
ポアソン分布の作成
上記のグラフを確率分布のポアソン分布で表現してみる。
独立かつランダムに起きる事象が一定の期間(例えば1日、1ヶ月、1年等)に起きる回数Xは、ポアソン分布(Poisson distribution)に従う。期待値はE(X)=λ、分散はV(X)=λである。
ポアソン分布 | 統計用語集 | 統計WEB (bellcurve.jp)
まず、ポアソン分布のパラメータ(λ)を決めるため、期待値を計算する。
> m <- sum((0:4)*day)/sum(day) > m [1] 0.8963415
ポアソン分布のパラメータ(λ)を「0.8963415」として、グラフを作成してみる。
※ちなみに、分散は「
高額チップ数のグラフと似たような形となった。
当てはまり具合
上記2つのグラフの当てはまり具合を適合度検定で調べてみる。
1日の高額チップ数 | 0 | 1 | 2 | 3 | 4 |
日数 | 62 | 65 | 30 | 6 | 1 |
期待値 | 66.92181212 | 59.9847958 | 26.8834294 | 8.0322444 | 1.7999082 |
ポアソン分布の値※ | 0.40805983 | 0.36576095 | 0.16392335 | 0.0489771 | 0.01327877 |
※確率の総和を1にするため、微調整を行った。
> chisq.test(day,p= expected_value) Chi-squared test for given probabilities data: day X-squared = 2.2937, df = 4, p-value = 0.6819
P値が「0.6819」となり、パラメータ(λ)が「0.8963415」のポアソン分布に従わないとはいえないという結果になった。
まとめ
今回は、1日に発生する高額チップ数をポアソン分布で表現してみた。
結果、分かったことは下記の1つ。
1日ごとなどのある一定期間でわずかに起こる事象をポアソン分布で表現できるのなら、低評価をもらう確率もポアソン分布で表現できるかもしれない。
コメント