【ウーバーイーツ】チップ発生とロジスティック判別分析【沖縄市】
前回作成したロジスティックモデルを用いて、判別分析を行ってみる。

参考資料
モデルによる推測統計学:ロジスティック判別分析【統計解析講義基礎】 (statg.com)
概要
ロジスティックモデルの確認
↓
チップありなしの基準を決める
↓
判別分析を行う
使用するデータ
使用するデータは、私の配達データ。
期間は、2021年7月1日~8月31日。
上記期間の総配達件数は、580件。※ ダブルピックも1件とカウント。
ロジスティックモデルの確認
前回作成したロジスティックモデルを確認する。
> summary(ans) Call: glm(formula = data$chip ~ ., family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -1.8672 -0.8419 -0.7666 0.9477 1.7405 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.907090 0.380310 -5.015 5.32e-07 *** base_fee 0.006407 0.002213 2.895 0.00379 ** foreigner 1.593696 0.205692 7.748 9.34e-15 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 780.69 on 579 degrees of freedom Residual deviance: 701.55 on 577 degrees of freedom AIC: 707.55 Number of Fisher Scoring iterations: 4
モデル式は、以下のようになる。
log p/(1-p)=-1.907090+0.006407 base_fee + 1.593696 foreigner
上記の左辺にあるpがチップ発生確率を表す。
チップありなしの基準
左辺がどのような値のときにチップありなしと判断するかの基準を決める。
式のままだと分かりづらいため、y=log p/(1-p)のグラフを作成してみる。結果は以下。
p=0.5を基準にし、それより小さければマイナス、大きければプラスとなっている。
つまり、log p/(1-p)がマイナスであれば、チップが発生しない確率の方が高く、プラスであれば、発生する確率の方が高いということになる。
このことをいかし、log p/(1-p)がマイナスであればチップなしと判別し、プラスであればチップありと判別する。
判別分析を行う
実際に上記のように判別分析を行ってみた。結果の一部を表にまとめる。
No | chip | base_fee | foreigner | logit※ | 判別結果 |
1 | 有 | 187 | 0 | -0.708981 | 無 |
2 | 有 | 140 | 0 | -1.01011 | 無 |
3 | 有 | 182 | 1 | 0.85268 | 有 |
4 | 有 | 143 | 0 | -0.990889 | 無 |
5 | 有 | 152 | 1 | 0.66047 | 有 |
… | … | … | … | … | … |
※log p/(1-p) のこと。
全体の結果を表にまとめる。
数 | 率 | |
正解 | 402 | 69.31% |
不正解 | 178 | 30.69% |
判別結果と実際のチップの有無が合っていた数は402個あり、正判別率は約7割となった。
チップ有りと予想した場合と無しと予想した場合の正判別率を見てみる。
判別結果 | |||
有 | 無 | ||
実際の結果 | 有 | 105 | 127 |
無 | 51 | 297 |
判別結果 | |||
有 | 無 | ||
実際の結果 | 有 | 67.31% | 29.95% |
無 | 32.69% | 70.05% |
どちらの場合も約70%の正判別率になっていると分かる。
追記
変数foreignerの影響が大きいため、変数foreignerと判別結果の関係性を見てみた。
No | chip | base_fee | foreigner | logit | 判別結果 | 正解・不正解 |
1 | 1 | 187 | 0 | -0.708981 | 0 | 不正解 |
2 | 1 | 140 | 0 | -1.01011 | 0 | 不正解 |
3 | 1 | 182 | 1 | 0.85268 | 1 | 正解 |
4 | 1 | 143 | 0 | -0.990889 | 0 | 不正解 |
5 | 1 | 152 | 1 | 0.66047 | 1 | 正解 |
6 | 1 | 101 | 1 | 0.333713 | 1 | 正解 |
… | … | … | … | … | … | … |
変数foreignerと判別結果の値が同じデータがほとんどだった。
つまり、外国人への配達であれば、チップありと予想し、外国人への配達でなければチップなしと予想したことになる。
まとめ
今回は、目的変数が2値となるロジスティックモデルで判別分析を行ってみた。
結果、分かったことは下記の2つ。
・チップ有り予想は約67%の確率で正解
・チップ無し予想は約70%の確率で正解
コメント