【ウーバーイーツ】チップ発生とロジスティック判別分析【沖縄市】

ウーバーイーツ×沖縄市

ウーバーイーツチップ発生とロジスティック判別分析【沖縄市

前回作成したロジスティックモデルを用いて、判別分析を行ってみる。

【ウーバーイーツ】チップ発生確率のロジスティックモデルとマルチコ【沖縄市】
【ウーバーイーツ】チップ発生確率のロジスティックモデルとマルチコ【沖縄市】 前回、チップ発生確率をロジスティックモデルで表してみた。 今回は、このモデルに問題がないか確認してみる。 参考書籍・資料 主な参...

参考資料

モデルによる推測統計学:ロジスティック判別分析【統計解析講義基礎】 (statg.com)

概要

ロジスティックモデルの確認

チップありなしの基準を決める

判別分析を行う

使用するデータ

使用するデータは、私の配達データ。

期間は、2021年7月1日~8月31日。

上記期間の総配達件数は、580件。※ ダブルピックも1件とカウント。

ロジスティックモデルの確認

前回作成したロジスティックモデルを確認する。

> summary(ans)

Call:
glm(formula = data$chip ~ ., family = binomial, data = data)

Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.8672 -0.8419 -0.7666 0.9477 1.7405

Coefficients:
Estimate Std. Error z value Pr(>|z|) 
(Intercept) -1.907090 0.380310 -5.015 5.32e-07 ***
base_fee 0.006407 0.002213 2.895 0.00379 ** 
foreigner 1.593696 0.205692 7.748 9.34e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 780.69 on 579 degrees of freedom
Residual deviance: 701.55 on 577 degrees of freedom
AIC: 707.55

Number of Fisher Scoring iterations: 4

モデル式は、以下のようになる。

log p/(1-p)=-1.907090+0.006407 base_fee + 1.593696 foreigner

上記の左辺にあるpがチップ発生確率を表す。

チップありなしの基準

左辺がどのような値のときにチップありなしと判断するかの基準を決める。

式のままだと分かりづらいため、y=log p/(1-p)のグラフを作成してみる。結果は以下。

p=0.5を基準にし、それより小さければマイナス、大きければプラスとなっている。

つまり、log p/(1-p)がマイナスであれば、チップが発生しない確率の方が高く、プラスであれば、発生する確率の方が高いということになる。

このことをいかし、log p/(1-p)がマイナスであればチップなしと判別し、プラスであればチップありと判別する。

判別分析を行う

実際に上記のように判別分析を行ってみた。結果の一部を表にまとめる。

Nochipbase_feeforeignerlogit※判別結果
11870-0.708981
21400-1.01011
318210.85268
41430-0.990889
515210.66047

※log p/(1-p) のこと。

全体の結果を表にまとめる。

正解40269.31%
不正解17830.69%

判別結果と実際のチップの有無が合っていた数は402個あり、正判別率は約7割となった。

チップ有りと予想した場合と無しと予想した場合の正判別率を見てみる。

判別結果
実際の結果
105127
51297
判別結果
実際の結果
67.31%29.95%
32.69%70.05%

どちらの場合も約70%の正判別率になっていると分かる。

 

追記

変数foreignerの影響が大きいため、変数foreignerと判別結果の関係性を見てみた。

Nochipbase_feeforeignerlogit判別結果正解・不正解
111870-0.7089810不正解
211400-1.010110不正解
3118210.852681正解
411430-0.9908890不正解
5115210.660471正解
6110110.3337131正解

変数foreignerと判別結果の値が同じデータがほとんどだった。

つまり、外国人への配達であれば、チップありと予想し、外国人への配達でなければチップなしと予想したことになる。

まとめ

今回は、目的変数が2値となるロジスティックモデルで判別分析を行ってみた。

結果、分かったことは下記の2つ。

今回の判別分析を用いて、チップの有無を予想した場合
・チップ有り予想は約67%の確率で正解
・チップ無し予想は約70%の確率で正解
日本人に絞った場合でチップ発生確率のモデルを作成してみても面白いかもしれない。

 

コメント

タイトルとURLをコピーしました