二項分布とは?
二項分布は、ベルヌーイ試行(結果が2通りしかない試行)を「独立に n 回繰り返したとき」に、成功する回数が従う確率分布です。
ベルヌーイ分布が「1回の打席」の結果を表すなら、二項分布は「シーズンの打席」や「1試合の打席」といったセット全体での成功回数をモデル化します。
📌 二項分布が適用される条件
二項分布が成立するためには、以下の条件(ベルヌーイ試行の条件+回数の固定)が必要です。
- 結果が2通り各試行は「成功」か「失敗」のいずれか。
- 各試行が独立であるある試行の結果が、他の試行の結果に影響を与えないこと。
- 成功確率 (p) が一定である何度繰り返しても、成功する確率は変わらないこと。
- 試行回数 (n) が固定されているあらかじめ「何回行うか」が決まっていること。
🧢 野球の例: バッターの「5回の打席」
ベルヌーイ分布では「1回の打席」でしたが、二項分布ではこれを拡張して「あるバッターが1試合で5回打席に立った結果」を考えます。
1. 二項分布の設定
- 試行回数 (n): バッターが打席に立つ回数。ここでは n = 5 回とします。
- 成功 (X=k): 5回のうち、ヒットを打つ回数。k は 0, 1, 2, 3, 4, 5 のいずれかの値を取ります。
2. 確率の設定
ベルヌーイ分布と同じバッター(打率 .300)を使います。
- 成功確率 (p): 0.3
- 失敗確率 (1-p): 0.7
3. 二項分布の確率質量関数 (PMF)
このバッターが5打席で「ちょうど k 回」ヒットを打つ確率は、パラメータ n と p の二項分布に従います。
ベルヌーイ分布の式に似ていますが、「何回目に成功したか」という組み合わせを考慮する必要があるため、少し式が複雑になります。
この式は、大きく2つのパートに分解して理解できます。
- 確率の積:
\(p^k (1-p)^{n-k}\)
k 回成功し、n-k 回失敗する確率です。「成功、成功、失敗…」といった特定のパターンの確率は、独立なので掛け算になります。 - 組み合わせの数
つまり、約30.9%の確率で、3割バッターは1試合(5打席)で2安打を放ちます。
📐 二項分布の平均(期待値)
二項分布 \(X \sim \text{Binomial}(n, p)\) の平均(期待値)は、試行回数 n に成功確率 p を掛けたものになります。
$$E[X] = np$$
📌 定義と導出(ベルヌーイ分布からの拡張)
二項分布の確率変数 X は、独立した n 個のベルヌーイ変数 \(X_1, X_2, \dots, X_n\) の合計と考えることができます(\(X = X_1 + X_2 + \dots + X_n\))。
期待値には「和の期待値は、期待値の和」という便利な性質(線形性)があるため、計算は非常に簡単です。
ベルヌーイ分布の期待値は p でした。これを n 個足すだけです。
$$E[X] = E[X_1] + E[X_2] + \dots + E[X_n]$$
$$E[X] = p + p + \dots + p$$
$$E[X] = np$$
⚾ 野球の例での解釈
5打席 (n=5)、打率.300 (p=0.3) の場合:
$$E[X] = 5 \times 0.3 = 1.5$$
これは、「このバッターが5回打席に立つ試合を何度も繰り返すと、平均して 1.5 本のヒットを打つことが期待される」という意味になります。
📉 二項分布の分散
二項分布 \(X \sim \text{Binomial}(n, p)\) の分散 \(V[X]\) は、試行回数 n と、ベルヌーイ分布の分散 \(p(1-p)\) の積になります。
$$V[X] = np(1-p)$$
📌 定義と導出
ここでも「独立性」が鍵になります。各試行が独立である場合、「和の分散は、分散の和」になります。
ベルヌーイ分布の分散は \(V[X_i] = p(1-p)\) でした。これを n 個足し合わせます。
$$V[X] = V[X_1] + V[X_2] + \dots + V[X_n]$$
$$V[X] = p(1-p) + p(1-p) + \dots + p(1-p)$$
$$V[X] = np(1-p)$$
わざわざ複雑な定義式 \(\sum (x-\mu)^2 P(x)\) を展開しなくても、ベルヌーイ分布の性質を知っていれば、単純な足し算で導くことができるのです。
⚾ 二項分布の分散の意味
式 \(np(1-p)\) を見ると、ベルヌーイ分布の分散 \(p(1-p)\) が単に n倍されていることがわかります。これには以下のような意味があります。
1. 試行回数 n が増えると、分散(ばらつきの総量)は増える
当然ですが、1打席の結果よりも、100打席の結果の方が、ヒット数の「振れ幅(ばらつき)」は大きくなります。n に比例して分散が大きくなるのは直感と一致します。
2. ばらつきが最大になるのは p=0.5 のとき
ベルヌーイ分布と同様、成功確率 pが 0.5 に近いほど p(1-p) は大きくなり、結果が予測しづらくなります。
- 打率 .500 の場合: 毎試合の結果が大きくばらつきます(0本のときもあれば5本のときもある)。
- 打率 .999 の場合: ほぼ毎回全打席ヒットになるため、結果のばらつきは極めて小さくなります。
このように、二項分布は「ベルヌーイ試行の積み重ね」であることを理解していれば、平均も分散も、ベルヌーイ分布の結果をn 倍するだけで直感的に理解できるのです。