二項分布とは?

二項分布とは?

二項分布は、ベルヌーイ試行(結果が2通りしかない試行)を「独立に n 回繰り返したとき」に、成功する回数が従う確率分布です。

ベルヌーイ分布が「1回の打席」の結果を表すなら、二項分布は「シーズンの打席」や「1試合の打席」といったセット全体での成功回数をモデル化します。

📌 二項分布が適用される条件

二項分布が成立するためには、以下の条件(ベルヌーイ試行の条件+回数の固定)が必要です。

  1. 結果が2通り各試行は「成功」か「失敗」のいずれか。
  2. 各試行が独立であるある試行の結果が、他の試行の結果に影響を与えないこと。
  3. 成功確率 (p) が一定である何度繰り返しても、成功する確率は変わらないこと。
  4. 試行回数 (n) が固定されているあらかじめ「何回行うか」が決まっていること。

🧢 野球の例: バッターの「5回の打席」

ベルヌーイ分布では「1回の打席」でしたが、二項分布ではこれを拡張して「あるバッターが1試合で5回打席に立った結果」を考えます。

1. 二項分布の設定

  • 試行回数 (n): バッターが打席に立つ回数。ここでは n = 5 回とします。
  • 成功 (X=k): 5回のうち、ヒットを打つ回数。k は 0, 1, 2, 3, 4, 5 のいずれかの値を取ります。

2. 確率の設定

ベルヌーイ分布と同じバッター(打率 .300)を使います。

  • 成功確率 (p): 0.3
  • 失敗確率 (1-p): 0.7

3. 二項分布の確率質量関数 (PMF)

このバッターが5打席で「ちょうど k 回」ヒットを打つ確率は、パラメータ n と p の二項分布に従います。

ベルヌーイ分布の式に似ていますが、「何回目に成功したか」という組み合わせを考慮する必要があるため、少し式が複雑になります。

P(X=k)=(nk)pk(1p)nkfor k{0,1,,n}P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad \text{for } k \in \{0, 1, \dots, n\}

この式は、大きく2つのパートに分解して理解できます。

  1. 確率の積:
    \(p^k (1-p)^{n-k}\)
    k 回成功し、n-k 回失敗する確率です。「成功、成功、失敗…」といった特定のパターンの確率は、独立なので掛け算になります。
  2. 組み合わせの数
(nk)  nCk\binom{n}{k} または {}_nC_k
52(k=2)P(X=2)=(52)×(0.3)2×(0.7)52具体例)5打席で「ちょうど2回」ヒットを打つ確率 (k=2)となり、 P(X=2) = \binom{5}{2} \times (0.3)^2 \times (0.7)^{5-2}という式となります。
(52)=5×42×1=10組み合わせは、\binom{5}{2} = \frac{5 \times 4}{2 \times 1} = 10 通りのパターンがあります。
(0.3)2×(0.7)3=0.09×0.343=0.03087確率の積は、(0.3)^2 \times (0.7)^3 = 0.09 \times 0.343 = 0.03087
 P(X=2)=10×0.03087=0.3087組み合わせと確率の積をかけると P(X=2) = 10 \times 0.03087 = 0.3087

つまり、約30.9%の確率で、3割バッターは1試合(5打席)で2安打を放ちます。


📐 二項分布の平均(期待値)

二項分布 \(X \sim \text{Binomial}(n, p)\) の平均(期待値)は、試行回数 n に成功確率 p を掛けたものになります。

$$E[X] = np$$

📌 定義と導出(ベルヌーイ分布からの拡張)

二項分布の確率変数 X は、独立した n 個のベルヌーイ変数 \(X_1, X_2, \dots, X_n\) の合計と考えることができます(\(X = X_1 + X_2 + \dots + X_n\))。

期待値には「和の期待値は、期待値の和」という便利な性質(線形性)があるため、計算は非常に簡単です。

ベルヌーイ分布の期待値は p でした。これを n 個足すだけです。

$$E[X] = E[X_1] + E[X_2] + \dots + E[X_n]$$

$$E[X] = p + p + \dots + p$$

$$E[X] = np$$

⚾ 野球の例での解釈

5打席 (n=5)、打率.300 (p=0.3) の場合:

$$E[X] = 5 \times 0.3 = 1.5$$

これは、「このバッターが5回打席に立つ試合を何度も繰り返すと、平均して 1.5 本のヒットを打つことが期待される」という意味になります。


📉 二項分布の分散

二項分布 \(X \sim \text{Binomial}(n, p)\) の分散 \(V[X]\) は、試行回数 n と、ベルヌーイ分布の分散 \(p(1-p)\) の積になります。

$$V[X] = np(1-p)$$

📌 定義と導出

ここでも「独立性」が鍵になります。各試行が独立である場合、「和の分散は、分散の和」になります。

ベルヌーイ分布の分散は \(V[X_i] = p(1-p)\) でした。これを n 個足し合わせます。

$$V[X] = V[X_1] + V[X_2] + \dots + V[X_n]$$

$$V[X] = p(1-p) + p(1-p) + \dots + p(1-p)$$

$$V[X] = np(1-p)$$

わざわざ複雑な定義式 \(\sum (x-\mu)^2 P(x)\) を展開しなくても、ベルヌーイ分布の性質を知っていれば、単純な足し算で導くことができるのです。

⚾ 二項分布の分散の意味

式 \(np(1-p)\) を見ると、ベルヌーイ分布の分散 \(p(1-p)\) が単に n倍されていることがわかります。これには以下のような意味があります。

1. 試行回数 n が増えると、分散(ばらつきの総量)は増える

当然ですが、1打席の結果よりも、100打席の結果の方が、ヒット数の「振れ幅(ばらつき)」は大きくなります。n に比例して分散が大きくなるのは直感と一致します。

2. ばらつきが最大になるのは p=0.5 のとき

ベルヌーイ分布と同様、成功確率 pが 0.5 に近いほど p(1-p) は大きくなり、結果が予測しづらくなります。

  • 打率 .500 の場合: 毎試合の結果が大きくばらつきます(0本のときもあれば5本のときもある)。
  • 打率 .999 の場合: ほぼ毎回全打席ヒットになるため、結果のばらつきは極めて小さくなります。

このように、二項分布は「ベルヌーイ試行の積み重ね」であることを理解していれば、平均も分散も、ベルヌーイ分布の結果をn 倍するだけで直感的に理解できるのです。