【ウーバーイーツ】適切な階級の数を考える【統計学習ログ】

ウーバーイーツ×統計学習

ウーバーイーツ】適切な階級の数を考える【統計学習ログ】

0.疑問

前回、配達データの距離料金で度数分布表・ヒストグラムを作成した。

【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】
【ウーバーイーツ】配達データを度数分布表・ヒストグラムで表す【統計学習ログ】 1.座学 サイト統計Webの情報をもとに学習 2.実践 実際に手を動かすことで理解を深める。 度数分布表を作成 配達データの距離料金に着目し、...

度数分布表を作成する際、距離料金を複数の階級に分けて表を作成したが、階級の数は特に意識せずに決めてしまった。

適切な階級の数は、どのように決めるのだろうか。

1.座学

サイト統計Webの情報をもとに学習

2-3. 階級幅の決め方 | 統計学の時間 | 統計WEB
統計学の「2-3. 階級幅の決め方」についてのページです。統計WEBの「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。

2.実践

実際に手を動かすことで理解を深める。

極端に少なく・多くしてみる

階級の数を極端にしてみる。

・階級の数(少)

階級を2つのみにしてみる。

階級度数
0以上300未満337
300以上550未満15

学習者
学習者

前半にめちゃくちゃ集まっていることは分かる。
0以上300未満のどの辺りに集まっているかは、まったく分からないね。
これは、適切な階級幅から大分離れている気がする。

 

・階級の数(多)

階級の数を前回記事の2倍にしてみる。

階級度数
0以上25未満4
25以上50未満19
50以上75未満35
75以上100未満46
100以上125未満55
125以上150未満33
150以上175未満31
175以上200未満45
200以上225未満30
225以上250未満23
250以上275未満11
275以上300未満5
300以上325未満3
325以上350未満2
350以上375未満3
375以上400未満2
400以上425未満1
425以上450未満1
450以上475未満1
475以上500未満1
500以上525未満1
525以上550未満0

学習者
学習者

山が2つできてる!
これは、前回記事では表れなかった形だね。
後半の階級は、数個のみが多いね。

スタージェスの公式

学習者
学習者

上記2つのグラフでは、適切な階級の数は分からない。

調べてみると、階級の数を決める公式があるみたい。

統計Webでの説明文↓

階級の幅の決め方にルールはありませんが、グラフを一目見て分布の特徴が捉えられるようにすることが推奨されます。階級幅が大きすぎても、逆に小さすぎてもデータの大まかな分布が分かりづらくなってしまいます。階級幅の決め方で困った場合には、「スタージェスの公式」を使うこともできます。この式を使うと、目安となる階級の数が算出できます。

 

スタージェスの公式

階級の数=\(1+ \log_2 n \)(nはデータ数)

 

データ数を総配達件数352として、計算してみる。

階級の数=\(1+ \log_2 352 \)

階級の数=\(1+ \log_2 (2^5\times11) \)

……

階級の数=9.46

学習者
学習者

久しぶりの対数で計算ミスりそうだったので、計算サイトにまかせました。
対数関数 – 高精度計算サイト (casio.jp)

計算の結果、階級の数は9~10個がベストだと分かった。

前回記事の階級の数と本記事の階級の数を確認すると、

階級の数(少)→階級の数2個
前回記事   →階級の数11個
階級の数(多)→階級の数22個

スタージェスの公式で計算した階級の数に一番近いグラフは、前回記事のグラフだった。

学習者
学習者

まぁ、そうなるよね。

階級の数で不安な場合は、スタージェスの公式を使おう。

3.まとめ

分かったことをまとめる。

・階級の数は、スタージェスの公式に当てはめると適切な数が分かる
・今回のグラフの適切な階級の数は9~10だった

4.参考文献

統計学の時間 | 統計WEB
「統計学の時間」では、統計学の基礎から応用までを丁寧に解説しています。大学で学ぶ統計学の基礎レベルである統計検定2級の範囲をほぼ全てカバーする内容となっています。学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を勉強する方にもイメージしやすい内容になっています。

筆者の配達データ

コメント

タイトルとURLをコピーしました