ベルヌーイ分布

⚾ ベルヌーイ分布とは?

ベルヌーイ分布は、結果が2通りしかない試行ベルヌーイ試行)の結果をモデル化するための確率分布です。この分布は、二項分布幾何分布といった、他の重要な確率分布の基礎となります。二項分布はベルヌーイ分布を複数回繰り返した結果をモデル化したものになるため、ベルヌーイ分布について正しく理解する必要があります。

📌 ベルヌーイ分布が適用される条件

  1. 結果が2通り
    「成功」か「失敗」のどちらか。
  2. 各試行が独立である
    前の試行の結果が、次の試行の結果に影響しないこと。
  3. 成功確率 (p) が一定である
    試行を繰り返しても、成功する確率が変わらないこと。
    成功確率 (p): 成功する確率。失敗確率 (1-p): 失敗する確率。

🧢 野球の例: バッターの打席

ベルヌーイ分布を説明するのに最適な野球の例は、「あるバッターの1回の打席の結果」です。

1. ベルヌーイ試行の設定

  • 試行: あるバッターが1回打席に立つこと。
  • 成功(X=1): ヒットを打つ(出塁する)。
  • 失敗(X=0):アウトになる(凡退する)。
    ※この説明をシンプルにするため、四球や死球などは含めず、「ヒット」か「アウト」の2択と仮定します。

2. 確率の設定

このバッターの打率(p)を使います。

  • 成功確率 (p): そのバッターがヒットを打つ確率。
    • 例として、バッターの打率が .300 だとします。
    • この場合、p = 0.3
  • 失敗確率 (1-p): そのバッターがアウトになる確率。
    • 1 – p = 1 – 0.3 = 0.7

3. ベルヌーイ分布の確率質量関数

このバッターの1回の打席の結果 \(X\) は、パラメータ \(p\) のベルヌーイ分布に従います。この確率を計算するための式を確率質量関数 (PMF)と呼びます。ベルヌーイ分布の確率質量関数 (PMF) は、非常にシンプルで、成功確率 \(p\) と失敗確率 \(1-p\) のみを用いて、以下のように表されます。※確率質量関数 (PMF)とは、離散型確率変数ある特定の値を取る確率を定義する関数のことです。

$$P(X=x) = p^x (1-p)^{1-x} \quad \text{for } x \in \{0, 1\}$$

この数式の後半にある \(\text{for } x \in \{0,1\}\) は、この確率関数が\(x\) が 0 または 1 の値を取る場合にのみ適用されるという定義域(適用範囲)を明記しています。この2つ以外の結果(例えば \(x=2\) や \(x=-1\) など)はベルヌーイ試行ではあり得ないので、その場合はこの確率関数は適用されません。

  • ヒットを打つ確率(x=1 の場合):
    $$P(X=1) = 0.3^1 \times (1-0.3)^{1-1} = 0.3 \times 0.7^0 = 0.3$$
  • アウトになる確率(x=0 の場合):
    $$P(X=0) = 0.3^0 \times (1-0.3)^{1-0} = 1 \times 0.7^1 = 0.7$$

計算式で計算していますが、ベルヌーイ分布では試行回数が1回のみに限定しているため、計算しなくとも成功確率pと失敗確率1-pとなります。

📐 ベルヌーイ分布の平均(期待値)

ベルヌーイ分布 \(X \sim \text{Bernoulli}(p)\) の平均(期待値)は、成功確率 p そのものになります。

📌 定義と導出

期待値 \(E[X]\) は、$$E[X] = \sum x \cdot P(X=x)$$で定義されます。

結果が \(x=0(失敗)と x=1 (成功)\)の2通りなので、0と1で計算すると

$$E[X] = 0 \cdot P(X=0) + 1 \cdot P(X=1)$$

$$E[X] = 0 \cdot (1-p) + 1 \cdot p$$

$$E[X] = p$$

平均(期待値)は確率と同じになります。

⚾ 野球の例での解釈

打率が .300 のバッターの例 (p=0.3) で考えると、

$$E[X] = 0.3$$

これは、「1回の打席で得られるヒットの数の平均は 0.3 回である」と解釈できます。成功確率そのものが、期待される成功の回数を表しています。


📉 ベルヌーイ分布の分散

ベルヌーイ分布 \(X \sim \text{Bernoulli}(p)\) の分散 \(V[X]\) は、成功確率 \(p\) と失敗確率\(1-p\) の積になります。

V[X]=p(1p)V[X] = p(1-p)

📌 定義と導出

分散 \(V[X]\) は、\(V[X] = E[X^2] – (E[X])^2\)で定義されます。

1. \(E[X^2]\) の計算:

$$E[X^2] = \sum x^2 \cdot P(X=x)$$

$$E[X^2] = 0^2 \cdot P(X=0) + 1^2 \cdot P(X=1)$$

$$E[X^2] = 0 \cdot (1-p) + 1 \cdot p$$

$$E[X^2] = p$$

2. 分散 \(V[X] の計算: E[X]=p\) なので、

$$V[X] = E[X^2] – (E[X])^2$$

$$V[X] = p – p^2$$

$$V[X] = p(1-p)$$

となりますが、数式ばかりでなんだかわかりません。

⚾ ベルヌーイ分布の分散が「積」になる理由

ベルヌーイ分布の分散 \(V[X] = p(1-p)\) が積の形になるのは、ベルヌーイ分布の結果が 0 と 1 の二つしかないという特性を当てはめた結果です。ここで、もう一度、分散の計算を具体的に見てみましょう。

設定の再確認

  • 成功確率: p
  • 失敗確率: 1-p
  • 平均(期待値): \(E[X] = p\)

1. 結果 X ごとの「差の二乗」の計算

結果 X確率 P(X)偏差 X−E[X]差の二乗 (X−E[X])2
1 (成功)p1 – p\((1 – p)^2\)
0 (失敗)1-p0 – p = -p\((-p)^2 = p^2\)

2. 分散(差の二乗の期待値)の計算

分散は、各結果の「差の二乗」にその確率をかけて合計したものになります。

$$V[X] = \sum (X – E[X])^2 \cdot P(X)$$

この式に成功した場合と失敗した場合の数字をあてはめましょう

上の表から、成功の場合は

\( (X – E[X])^2 は (1 – p)^2が代入でき、P(X)にはpが代入でき、(1 – p)^2 \cdot p\)となります。

失敗の場合は、

\(( (X – E[X])^2 は p^2が代入でき、P(X)には(1 – p)が代入でき、p^2 \cdot (1 – p)\)となります。

結果的に、

$$V[X] = (1 – p)^2 \cdot p + p^2 \cdot (1 – p)$$

となります。

両方の項に共通して含まれているのは、\(\boldsymbol{p} が 1つ と \boldsymbol{(1 – p)}\) が 1つ です。

共通因子は、

$$\boldsymbol{p (1 – p)}$$

です。

3. 共通因子を括り出す(因数分解)

この共通因子 \(\boldsymbol{p (1 – p)}\) を式の外に括り出すと、以下のようになります。

$$V[X] = \boldsymbol{p (1 – p)} \cdot \left[ \text{(左の項の残り)} + \text{(右の項の残り)} \right]$$

それぞれの項から \(\boldsymbol{p (1 – p)} を取り除いて、残ったものを角括弧 \left[ \right]\) の中に入れます。

  • 左の項の残り:$$(1 – p)^2 \cdot p = \boldsymbol{(1 – p)} \cdot (1 – p) \cdot \boldsymbol{p}$$
    \(\boldsymbol{p (1 – p)} を取り除くと、残るのは \boldsymbol{(1 – p)}\) です。
  • 右の項の残り:$$p^2 \cdot (1 – p) = \boldsymbol{p} \cdot p \cdot \boldsymbol{(1 – p)}$$
    \(\boldsymbol{p (1 – p)} を取り除くと、残るのは \boldsymbol{p}\) です。

4. 式の完成

残ったものを角括弧の中に入れると、目的の式が得られます。

この式を因数分解すると、積の形になります。

  • 両方の項に共通する因子は p と (1-p) です。$$V[X] = p(1 – p) \cdot \left[ (1 – p) + p \right]$$
  • 角括弧の中身は (1 – p + p) = 1 になります。$$V[X] = p(1 – p) \cdot [1]$$$$V[X] = p(1 – p)$$

このように、分散の定義(差の二乗の期待値)に従って計算を進めた結果、ベルヌーイ分布特有の 0 と 1 という結果の単純さから、最終的に成功確率 p と失敗確率 1-p の積という美しい形にまとまるのです。

ベルヌーイ分布の分散の意味

分散とは、結果のばらつきの度合いを示すものです。ベルヌーイ分布の結果は 0(失敗)か 1(成功)の2通りしかありません。分散 \(p(1-p)\) が最大になるのは p=0.5 のとき、最小になるのは p が 0 または 1 に近いとき、という点を考えると理解しやすくなります。

1. ばらつきが最大になる点 (p=0.5)

成功確率 p が 0.5のとき、つまり「成功と失敗が半々で起こる」状態のとき、結果は最も予測しにくく、ばらつきが最大になります。

  • 野球の例: 打率が .500 のバッターがいるとします。打席に立つたびに、ヒット(1)かアウト(0)か、どちらも同じ確率で起こるため、結果の不確実性が最も高い状態です。
  • このとき、分散 \(V[X]\) は \(0.5 \times (1-0.5) = 0.25\) となり、最大値をとります。結果が 0 と 1 の間で最も大きく揺れ動いている状態と言えます。

2. ばらつきが最小になる点 (p が 0 または 1 に近い)

成功確率 p が 0 または 1 に非常に近いとき、結果はほとんど決まっており、ばらつきは最小(0に近い)になります。

  • 極端な成功 (\(p \approx 1\) の場合):
    • 打率が .999 のバッターがいるとします。このバッターは、打席に立てばほぼ確実にヒット(1)を打ちます。結果は常に「1」に固定されており、ばらつきはほとんどありません
    • 分散 \(V[X] は $0.999 \times (1-0.999) = 0.999 \times 0.001 = 0.000999\) となり、ゼロに非常に近くなります。
  • 極端な失敗 (\(p \approx 0\) の場合):
    • 打率が .001 のバッターがいるとします。このバッターは、打席に立てばほぼ確実にアウト(0)になります。結果は常に「0」に固定されており、これもばらつきはほとんどありません
    • 分散 \(V[X] は $0.001 \times (1-0.001) = 0.001 \times 0.999 = 0.000999\) となり、やはりゼロに近くなります。

分散 \(p(1-p)\) は、この「成功と失敗が半々であるほど不確実性が高まり、片方に偏るほど不確実性が減る」という直感的なばらつきの性質を、完璧に捉える形になっているのです。成功 p と失敗 1-p の両方がバランスよく存在するときに、積が最も大きくなる(ばらつきが最大になる)というわけです。