初めに
度数分布表やヒストグラムを作成するときに階級の数を決定する目安を得られる公式として、スタージェスの公式が知られています。本記事は、スタージェスの公式とその導出を載せます。
スタージェスの公式
スタージェスの公式
データの大きさを \(n\) とし、そのデータを \(k\) 個の階級で分割する。このとき、次の等式で \(k\) が得られる。
\[
k = \log_2 n + 1
\]
補足
スタージェスの公式は、次を用いて導出をしています。
- 二項分布 \(B(n, p)\) は試行回数 \(n\) を十分大きくすると正規分布に近づく
そのため、データの大きさが小さい場合には、あまり適さないことがあります。
導出
前提として、正規分布を適切に分割する階級の幅を考えることにする。二項分布 \(B(n, p)\) は試行回数が十分大きいとき、正規分布 \(N(np, np(1 \ – \ p))\) に近似できるため、試行回数が \(n\) の場合の二項分布がどのように分割されているかを考える。
今回、データの大きさ(試行回数)は \(n\) であり、これを \(k\) 分割する場合を考えるため、
\[
\sum_{i = 0}^{k \ – \ 1} {}_{k \ – \ 1} C_i = n
\]
とする。二項定理より
\[\begin{align}
(1 + 1)^{k \ – \ 1} &= \sum_{i = 0}^{k \ – \ 1} {}_{k \ – \ 1} C_i \notag \\
2^{k \ – \ 1} &= \sum_{i = 0}^{k \ – \ 1} {}_{k \ – \ 1} C_i \notag
\end{align}\]
である。したがって、
\[\begin{align}
n &= 2^{k \ – \ 1} \notag \\
\log_2 n &= k \ – \ 1 \notag \\
k &= 1 + \log_2 n
\end{align}\]
例題
問題
データの大きさが \(400\) であるとする。
(1) 何個の階級で分割するのが妥当か。スタージェスの公式を用いて答えよ。
(2) このデータの最小値は \(0\)、最大値は \(100\) であるとするとき、階級の幅をいくつにするのが妥当か。小数第3位を四捨五入して答えよ。
解答
(1) スタージェスの公式より
\[
k = 1 + \log_2 400 = 1 + 20 = 21
\]
よって、21個の階級に分割するのが妥当である。
(2) このデータの範囲は \(100 – 0 = 100\) である。このデータを \(21\) 個に分割するため、
\[
\frac{100}{21} = 4.7619…
\]
となる。よって、階級の幅は \(4.76\) とするのが妥当である。