【ウーバーイーツ】適切な階級の数を考える【統計学習ログ】
0.疑問
前回、配達データの距離料金で度数分布表・ヒストグラムを作成した。

度数分布表を作成する際、距離料金を複数の階級に分けて表を作成したが、階級の数は特に意識せずに決めてしまった。
適切な階級の数は、どのように決めるのだろうか。
1.座学
サイト統計Webの情報をもとに学習
2.実践
実際に手を動かすことで理解を深める。
極端に少なく・多くしてみる
階級の数を極端にしてみる。
・階級の数(少)
階級を2つのみにしてみる。
階級 | 度数 |
0以上300未満 | 337 |
300以上550未満 | 15 |

前半にめちゃくちゃ集まっていることは分かる。
0以上300未満のどの辺りに集まっているかは、まったく分からないね。
これは、適切な階級幅から大分離れている気がする。
・階級の数(多)
階級の数を前回記事の2倍にしてみる。
階級 | 度数 |
0以上25未満 | 4 |
25以上50未満 | 19 |
50以上75未満 | 35 |
75以上100未満 | 46 |
100以上125未満 | 55 |
125以上150未満 | 33 |
150以上175未満 | 31 |
175以上200未満 | 45 |
200以上225未満 | 30 |
225以上250未満 | 23 |
250以上275未満 | 11 |
275以上300未満 | 5 |
300以上325未満 | 3 |
325以上350未満 | 2 |
350以上375未満 | 3 |
375以上400未満 | 2 |
400以上425未満 | 1 |
425以上450未満 | 1 |
450以上475未満 | 1 |
475以上500未満 | 1 |
500以上525未満 | 1 |
525以上550未満 | 0 |

山が2つできてる!
これは、前回記事では表れなかった形だね。
後半の階級は、数個のみが多いね。
スタージェスの公式

上記2つのグラフでは、適切な階級の数は分からない。
調べてみると、階級の数を決める公式があるみたい。
統計Webでの説明文↓
階級の幅の決め方にルールはありませんが、グラフを一目見て分布の特徴が捉えられるようにすることが推奨されます。階級幅が大きすぎても、逆に小さすぎてもデータの大まかな分布が分かりづらくなってしまいます。階級幅の決め方で困った場合には、「スタージェスの公式」を使うこともできます。この式を使うと、目安となる階級の数が算出できます。
スタージェスの公式
階級の数=\(1+ \log_2 n \)(nはデータ数)
データ数を総配達件数352として、計算してみる。
階級の数=\(1+ \log_2 352 \)
階級の数=\(1+ \log_2 (2^5\times11) \)
……
階級の数=9.46

久しぶりの対数で計算ミスりそうだったので、計算サイトにまかせました。
対数関数 – 高精度計算サイト (casio.jp)
計算の結果、階級の数は9~10個がベストだと分かった。
前回記事の階級の数と本記事の階級の数を確認すると、
前回記事 →階級の数11個
階級の数(多)→階級の数22個
スタージェスの公式で計算した階級の数に一番近いグラフは、前回記事のグラフだった。

まぁ、そうなるよね。
階級の数で不安な場合は、スタージェスの公式を使おう。
3.まとめ
分かったことをまとめる。
・今回のグラフの適切な階級の数は9~10だった
4.参考文献
筆者の配達データ
コメント