【ウーバーイーツ】ベース料金と配達調整金額で集中楕円を描いてみる【沖縄市】
※集中楕円を描いてみたかっただけの記事
参考書籍
主な参考箇所 第12章 多変量正規分布とその応用
概要
ベース料金と配達調整金額のヒストグラムを作成。
↓
正規分布に従うかどうか確認。
↓
集中楕円を描く。
使用するデータ
使用するデータは、私の配達データ。
期間は、2021年5月10日~10月31日
上記期間の総配達件数は、1528件。※ ダブルピックも1件とカウント。
今回はダブルピックだった配達を除いて、分析を行う。
ベース料金と配達調整金額のヒストグラム
ベース料金と配達調整金額のヒストグラムを作成し、データの全体像をそれぞれ見てみる。
ベース料金↓
配達調整金額↓
正規分布に従うかどうか
ベース料金と配達調整金額が正規分布に従うかどうかを確認してみる。
確認方法は、以下書籍の内容を参考にした。
残差を標準化し、小さい順に並べたものの分位点と、標準正規分布の累積分布関数の分位点をプロットしたもので、正規Q-Qプロット(normal quantile-quantile plot)とよぶ。誤差項の正規性の仮定が満たされているとき、このプロットは傾き1の直線上に並ぶ。この並びから誤差項の正規性が妥当であるか否かを判断する。
Q-Qプロットを作成してみる。
> qqnorm(base_fee) > qqline(base_fee) > qqnorm(adjustment_amount) > qqline(adjustment_amount)
ベース料金↓
配達調整金額↓
プロットは両方とも直線上に規則正しく並んでいるように見えない。検定にかけてみる。
参考資料↓
【R言語】データが正規分布なのか検定する方法 | ミナピピンの研究室 (tkstock.site)
> shapiro.test(base_fee) Shapiro-Wilk normality test data: base_fee W = 0.96051, p-value < 2.2e-16 > shapiro.test(adjustment_amount) Shapiro-Wilk normality test data: adjustment_amount W = 0.95818, p-value < 2.2e-16
両方とも、有意水準5%で有意となった。よって、ベース料金と配達調整金額はどちらも正規分布に従うとはいえないということが分かった。
※集中楕円を描く場合は、両方とも正規分布に従っていなければいけない。上記の検定で正規分布に従わないと分かったが、集中楕円を試すため、あえて、正規分布に従うと仮定して、進めていく。
集中楕円を描く
集中楕円について、参考書籍で確認してみる。
身長と体重のデータ等の散布図は、両者の平均ベクトルの周りにデータが集中していることが多い。このようなデータは、二変量の正規分布に従っていると考えると便利である。この正規分布の等高線は一般に楕円となるが、データにこの楕円を当てはめることで、データがどこに集中しているか可視化できる。これを集中楕円と言う。
さっそく、集中楕円を描いてみる。
> dataEllipse(base_fee,adjustment_amount,level=0.8)
上の図の青線が集中楕円となる。今回は、levelを0.8に設定したため、楕円の内部に80%の点があると期待される基準の線が描かれた。
まとめ
今回は、ベース料金と配達調整金額の集中楕円を描くことで、データの集まり具合を可視化してみた。ベース料金と配達調整金額が正規分布に従わなかったため、条件を満たした集中楕円を描けなかった。
コメント