【ウーバーイーツ】店舗データで計量MDS【沖縄市】
以前、クラスター分析で店舗のグループ分けを行ってみた。

今回は、店舗間の類似性に着目して分析してみる。
参考書籍・資料

主な参考箇所 8 多次元尺度法
概要
扱うデータの確認
↓
多次元尺度法(MDS)について調べる
↓
計量MDSを行う
使用するデータ
使用するデータは、私の配達データ。
期間は、2021年5月10日~10月31日。
上記期間の総配達件数は、1528件。※ ダブルピックも1件とカウント。
扱うデータの確認
注文数の多かった20店舗を選び、各変量を標準化した。
今回は、上記データを使う。
多次元尺度法(MDS)について
類似性を扱った分析方法を見つけた。
多次元尺度法(MDS:Multi-Dimensional Scaling)は個体間の親近性データを2次元あるいは3次元空間に配置する方法であり、類似したものは近く、そうでないものは遠くに配置される。
今回の場合だと、類似した店舗同士は近く配置され、そうでない店舗同士は遠くに配置されるということだろう。
計量MDSを行う
今回はMDSの中でも計量MDSを使ってみる。
計量MDSの流れは、書籍にこのように記述されていた。
MDS分析では一般的に次のプロセスをとる
・距離を求める
・座標値を求める
・2~3次元上で個体を配値する(散布図を作成する)
・信頼性について考察する
上記にならって、進めてみる。
・距離を求める
距離は、関数distを使って求める。
> data <- read.table("clipboard") > data.d <- dist(data)
・座標値を求める ・2~3次元上で個体を配値する(散布図を作成する)
座標値は、関数cmdscaleを使って求める。後、散布図を作成する。
> data.cmd <- cmdscale(data.d) > plot(data.cmd,type = "n") > text(data.cmd,rownames(data.cmd))
上記図を見ると、14と18がかなり類似していると予想できる。反対に、1と9は離れているため、まったく類似していないと予想できる。
実際のデータを見てみる。
order_quantity | count_chip | per_tip_10 | per_tip_1000yen | distance | |
14 | -0.684 | -0.590 | -0.008 | -0.366 | 1.498 |
18 | -0.847 | -0.766 | -0.231 | -0.109 | 1.418 |
order_quantity | count_chip | per_tip_10 | per_tip_1000yen | distance | |
1 | 3.360 | 2.934 | 0.251 | 0.331 | -0.945 |
9 | -0.071 | -0.942 | -2.250 | -1.947 | -0.504 |
14と18を比較すると、どの項目も符号が同じ、かつ、値に大きな差がないことから、類似性があるといえる。
1と9を比較すると、符号の異なる項目が多いことから、類似性がないといえる。
ちなみに、14・18・1・9の店舗は以下になる。
14:ほっともっと 中の町店
18:モスバーガー コザ店
1 :ペリペリチキン
9 :ほっともっと 赤道店
・信頼性について考察する
推測値の当てはまりのよさを確認する方法として、参考書籍に以下の記述があった。
MDSの配置図における点の間の距離は、用いた距離の推測値である。推測値の当てはまりのよさは両距離行列の相関係数を用いて考察することができる。
やってみる。
> dhat <- dist(data.cmd) > cor(data.d,dhat)^2 [1] 0.9649786
結果、0.9649786と出たが、この数値の良い悪いが分からない。
解釈の仕方について調べてみると、以下の記述があった。
相関係数の2乗は約0.97であることから、MDSによる2次元の地点間の距離の再現に大きな歪みはないと言えよう。
上記を参考にすると、今回の数値もさほど悪くはないといえそう。
まとめ
今回は、多次元尺度法の計量MDSで店舗間の類似性を分析してみた。
結果、今回の分析項目で分かったことは下記の2つ。
・ペリペリチキンとほっともっと赤道店の類似性は低い
コメント