確率変数の和と差(同時分布、和の期待値・分散)

1人の選手(1つの確率変数)の分析ができるようになったら、次は「チーム全体の分析」です。

野球は9人で戦うスポーツです。「1番打者(変数\(X\))」と「2番打者(変数\(Y\))」を組み合わせると、チームとしてどれくらいの得点力(和)になるのか?あるいは、エース(\(X\))と相手エース(\(Y\))の実力差(差)はどれくらいか?

このように、複数の確率変数を足したり引いたりした時のルール、「和と差」について説明します。


1. 同時分布(Joint Distribution)

1. 離散型同時確率分布(Joint Probability Distribution)

2つの変数(今回は「勝敗」と「場所」)が、同時に特定の組み合わせになる確率を表したものです。

ここでは、以下の2つの確率変数を定義します。

  • \(X\) = 勝敗(勝、負、引)
  • \(Y\) = 場所(ホーム、ビジター)

各セルの数値を全試合数(143)で割ることで、同時確率 \(P(X, Y)\) が求められます。

【計算式】例:ホームで勝つ確率 = \(44 \div 143 \approx 0.3077\) (30.8%)

【同時確率分布表】表の中の数値(%)が、それぞれの「同時確率」です。

勝敗 (X) | 場所 (Y)ホームビジター
勝 (Win)30.8%(\(44/143\))18.2%(\(26/143\))
負 (Loss)18.2%(\(26/143\))30.0%(\(43/143\))
引 (Draw)0.7%(\(1/143\))2.1%(\(3/143\))
  • 解説: この表全体が「同時確率分布」です。「ホームであり、かつ勝つ確率は約30.8%である」といったように、2つの条件が重なる確率を示しています。これら6つの確率をすべて足すと \(100\%\) (\(1.0\)) になります。

2. 周辺確率分布(Marginal Probability Distribution)

同時確率分布の表から、片方の変数だけに注目して集計した確率分布のことです。

表の「端(マージン)」に合計を書き足すイメージです。

  • 「場所」を無視して、「勝敗」だけの確率を知りたい場合
  • 「勝敗」を無視して、「場所」だけの確率を知りたい場合

これらを計算するために、行ごと、または列ごとに確率を足し合わせます。

【周辺確率分布つきの表】

勝敗 | 場所ホームビジター合計 (周辺確率)
30.8%18.2%49.0%
18.2%30.0%48.2%
0.7%2.1%2.8%
合計 (周辺確率)49.7%50.3%100%
  • 解説:
    • 右端の列(49.0%, 48.2%, 2.8%)が、「勝敗 (\(X\)) の周辺確率分布」です。「ホームかビジターかに関係なく、巨人が勝つ確率は49.0%」ということを示します。
    • 下端の行(49.7%, 50.3%)が、「場所 (\(Y\)) の周辺確率分布」です。「勝敗に関係なく、試合がホームで行われる確率は49.7%」ということを示します(日程の偏りなどで完全な50%にならない場合)。

3. 周辺確率関数(Marginal Probability Function)

周辺確率分布を数式(関数)として表現したものです。基本的には「もう片方の変数の確率をすべて足し合わせる(和をとる)」という操作を行います。

数学的には以下のように書きます。

$$P_X(x) = \sum_{y} P(x, y)$$

これは、「\(X\)(勝敗)のある値 \(x\)(例:勝ち)における周辺確率は、\(Y\)(場所)のすべてのパターン(ホームとビジター)の同時確率を足したもの」という意味です。

【具体的な計算例】

① 勝敗 (\(X\)) の周辺確率関数

「勝つ」確率 \(P_X(\text{勝})\) を求める場合:

$$P_X(\text{勝}) = P(\text{勝}, \text{ホーム}) + P(\text{勝}, \text{ビジター})$$

$$P_X(\text{勝}) = 0.308 + 0.182 = 0.490$$

② 場所 (\(Y\)) の周辺確率関数

「ホーム」である確率 \(P_Y(\text{ホーム})\) を求める場合:

$$P_Y(\text{ホーム}) = P(\text{勝}, \text{ホーム}) + P(\text{負}, \text{ホーム}) + P(\text{引}, \text{ホーム})$$

$$P_Y(\text{ホーム}) = 0.308 + 0.182 + 0.007 = 0.497$$

まとめ

野球のデータで例えると、それぞれの違いは以下のようになります。

  1. 同時確率分布: 「ホームで」かつ「勝つ」確率は?(クロス集計の中身)
  2. 周辺確率分布: ホーム・ビジター関係なく、単純に「勝つ」確率は?(合計欄の分布)
  3. 周辺確率関数: 上記の合計確率を求めるための「足し算の数式」

このデータを見ると、ホームでの勝率が非常に高い一方で、ビジターでは負け越していることが、同時確率分布の偏りからはっきりと見て取れますね。


同時確率と条件付き確率の違い

  • 同時確率:全体(143)の中で、「ホームかつ勝ち(44)」の割合(約30.8%)
  • 条件付き確率:ホーム(71)の中で、「勝ち(44)」の割合(約62.0%)

条件付き確率を使うと、漠然とした全体データから「特定の状況下での強さ」や「傾向」をあぶり出すことができます。


2. 和と差の期待値

1. 和の期待値 \(E[X + Y]\)

~単純な足し算でOK!~

ルール 2つの確率変数 \(X\) と \(Y\) があるとき、その和の期待値は、それぞれの期待値を足したものになります。

$$E[X + Y] = E[X] + E[Y]$$

野球での例:チームの年間ホームラン数

  • 変数 \(X\): 4番バッターの年間ホームラン数(期待値 \(E[X] = 30\)本)
  • 変数 \(Y\): 5番バッターの年間ホームラン数(期待値 \(E[Y] = 20\)本)

Q. この「4番・5番コンビ」で、年間合計何本のホームランが期待できるか?

A. 単純に足すだけです。

$$30 + 20 = 50 \text{本}$$

【超重要ポイント】「独立」じゃなくても成り立つ!

ここが分散(バラつき)との最大の違いです。期待値の場合、2人の仲が良い(相乗効果がある)か悪い(足の引っ張り合いがある)かは関係ありません。

  • 「4番が敬遠されたら5番が燃えて打つ」という関係があっても、
  • 「4番が打つと5番は気が緩む」という関係があっても、

個々の平均がわかっていれば、合計の平均は必ず足し算で求められます。

2. 差の期待値 \(E[X – Y]\)

~単純な引き算でOK!~

ルール 差の期待値も同様に、それぞれの期待値を引いたものになります。

$$E[X – Y] = E[X] – E[Y]$$

野球での例:試合の得点差(勝てる見込み)

  • 変数 \(X\): 自チームの平均得点(期待値 \(E[X] = 4.5\)点)
  • 変数 \(Y\): 相手チームの平均得点(期待値 \(E[Y] = 3.2\)点)

Q. この試合、平均して何点差で勝つ(または負ける)ことが期待できるか?

A. 単純に引くだけです。

$$4.5 – 3.2 = +1.3 \text{点}$$

つまり、「平均して1.3点リードして終わるだろう」と予測できます。

3. 定数倍の公式 \(E[aX + b]\)

~おまけ:下駄を履かせたり、倍にしたり~

確率変数に決まった数(定数)を足したり掛けたりした場合も、期待値は素直に反応します。

$$E[aX + b] = a \times E[X] + b$$

野球での例:年俸の計算

ある選手の成績(\(X\):ヒット数)に応じてボーナスが出るとします。

  • 基本給:1000万円(定数 \(b\))
  • ヒット1本につき:10万円(係数 \(a\))
  • この選手の平均ヒット数(\(E[X]\)):150本

Q. この選手の年俸の期待値は?

$$E[10X + 1000] = 10 \times 150 + 1000 = 2500 \text{万円}$$

3. 和の分散

「期待値(平均)」は単純な足し算ができましたが、「分散(バラつき)」はそう単純にはいかない、という点が最大のポイントです。

バラつきは、単純に足していい時と、ダメな時がある

あるタスクの「所要時間」を見積もるとします。

  • 作業A: 平均1時間だが、調子の波があり、バラつき(リスク)がある
  • 作業B: 平均1時間だが、こちらも調子の波があり、バラつき(リスク)がある

この2つの作業を合わせた「合計時間」のバラつきはどうなるでしょうか?

ここには「2つの作業の関係性」によって3つのパターンが生まれます。

  1. 無関係の場合(独立): Aが長引こうが早く終わろうが、Bには関係ない場合。 このとき、合計のバラつきは、AのリスクとBのリスクを単純に足し合わせたものになります。
  2. 連動する場合(正の相関): 「Aがトラブルで遅れると、その影響でBも調子を崩して遅れる」という場合。 悪いことが重なる(逆に良いことも重なる)ため、合計のバラつきは、単純な足し算よりも「もっと大きく」なります(大成功か大失敗か、極端になる)。
  3. 打ち消し合う場合(負の相関): 「Aが遅れたら、Bが慌てて急いで取り戻す」という場合。 遅れをカバーし合うため、合計のバラつきは、単純な足し算よりも「小さく」なります(全体として安定する)。

つまり、和の分散とは「個々のバラつきの合計」に、「お互いの相乗効果(プラスかマイナスか)」を加えたものと言えます。

「共分散」という調整項

上記の言葉を、数学の記号に変換します。

  • \(V[X]\):変数Xの分散(バラつき)
  • \(V[Y]\):変数Yの分散(バラつき)
  • \(\text{Cov}(X, Y)\):共分散(お互いの関係性)

基本公式

$$V[X + Y] = V[X] + V[Y] + 2\text{Cov}(X, Y)$$

この式は、「2乗の展開公式」 \((x+y)^2 = x^2 + y^2 + 2xy\) に非常によく似ています。

最後の \(2\text{Cov}(X, Y)\) という部分が、先ほど説明した「相乗効果」です。

ケース別の計算

  1. 独立している(無関係)場合:

関係がないので、共分散 \(\text{Cov}(X, Y) = 0\) になります。

$$V[X + Y] = V[X] + V[Y]$$

(ここで初めて単純な足し算になります)

  1. 正の相関がある(連動する)場合:

共分散がプラスなので、全体の分散は 足し算より大きくなります。

$$V[X + Y] > V[X] + V[Y]$$

  1. 負の相関がある(打ち消し合う)場合:

共分散がマイナスなので、全体の分散は 足し算より小さくなります。

$$V[X + Y] < V[X] + V[Y]$$

野球で説明する具体的な事例~1番打者と2番打者の「コンビのムラっ気」~

では、具体的に野球の「1・2番コンビ」で考えてみましょう。

監督として、「この2人のコンビは、試合ごとに得点力が安定しているか? それともギャンブル的か?」(=分散の大きさ)を知りたいとします。

  • 1番打者 (\(X\)): 気分屋で、調子が良い日は打ちまくるが、悪い日はサッパリ。(分散 \(V[X] = 10\))
  • 2番打者 (\(Y\)): 同じく気分屋。(分散 \(V[Y] = 10\))

単純に足すと \(10 + 10 = 20\) ですが、2人の関係性で結果が変わります。

ケース①:お互い我関せず(独立)

1番が出塁しようが凡退しようが、2番は自分のペースで打席に立つタイプ。

  • 計算: \(10 + 10 = \mathbf{20}\)
  • 解釈: チームとしての波の大きさは、2人の個性を単純に足した分だけになります。

ケース②:イケイケムード(正の相関)

1番がヒットを打つと、2番も「俺も!」と燃えて打ち出す。逆に1番が倒れると、2番もシュンとして凡退する。

(共分散 \(\text{Cov}(X, Y) = +5\) とします)

  • 計算: \(10 + 10 + (2 \times 5) = 20 + 10 = \mathbf{30}\)
  • 解釈: 「2人とも爆発」か「2人とも沈黙」のどちらかになりやすい。チームの得点力は0点か大量点か、極端に激しく変動(分散が増大)します。

ケース③:カバーし合う関係(負の相関)

1番が凡退すると、2番が「俺がなんとかしなきゃ」と集中して打つ。逆に1番が出ると、2番はバントなどで手堅くいく(自分のヒットは減る)。

(共分散 \(\text{Cov}(X, Y) = -5\) とします)

  • 計算: \(10 + 10 + (2 \times -5) = 20 – 10 = \mathbf{10}\)
  • 解釈: どちらかがダメでも片方が補うため、毎回そこそこの結果を残します。チームとしての結果は非常に安定(分散が減少)します。


4. 差の分散

不確実性の拡大~「違い」を予測するのは、もっと難しい~

まず、直感的なイメージから入りましょう。

あなたは、自分のチーム(\(X\))と相手チーム(\(Y\))の試合結果、つまり「点差(勝敗の行方)」を予測しようとしています。

  • 自チーム (X): 調子の波が激しい(分散がある)。
  • 相手チーム (Y): 相手も調子の波が激しい(分散がある)。

さて、「点差(\(X – Y\))」の予測のしやすさ(バラつき)はどうなるでしょうか?

「引き算だから、バラつきも引かれて小さくなる(予測しやすくなる)?」

いいえ、逆です。

  • 自チームが「絶好調」で、相手が「絶不調」なら、大差で勝ちます。
  • 自チームが「絶不調」で、相手が「絶好調」なら、大差で負けます。

お互いに波があるせいで、点差の可能性は「大勝ち」から「大負け」まで、個々の波よりもさらに大きく広がってしまうのです。

つまり、変数を引き算しても、不確実性(リスク)は積み重なって増えていくのです。これが基本の感覚です。

数式による説明~符号の逆転トリック~

これを数式で確認してみましょう。

  • \(V[X]\):変数Xの分散
  • \(V[Y]\):変数Yの分散
  • \(\text{Cov}(X, Y)\):共分散

基本公式

$$V[X – Y] = V[X] \mathbf{+} V[Y] – 2\text{Cov}(X, Y)$$

【重要ポイント1:分散は足す】式の前半を見てください。\(X – Y\) の分散を求めているのに、右辺では \(V[X] + V[Y]\) と足し算になっています。(数学的には、\(-1\) を2乗すると \(+1\) になるため、マイナスの変数の分散もプラスとして加算されるからです)

【重要ポイント2:共分散は引く】式の後半は \(-2\text{Cov}(X, Y)\) となっています。和の分散のときと符号が逆です。これが「関係性」の影響を逆転させます。

野球の事例による説明~「点差」はいつ安定するのか?~

「自チームの得点 (\(X\))」引く「相手チームの得点 (\(Y\))」= 「点差」のバラつきについて、2チームの関係性ごとに見てみましょう。(それぞれの得点の分散は \(V[X]=10, V[Y]=10\) とします)

ケース①:無関係(独立)

普通の試合です。相手の調子は自分たちに関係ありません。

  • 計算: \(10 + 10 = \mathbf{20}\)
  • 解釈: 点差の変動幅は、お互いの調子の波を単純に足し合わせた分だけ大きくなります。

ケース②:一緒に動く(正の相関)

例:強風が吹いている球場。風に乗ってホームランが出やすい日は、自チームも打ちますが、相手チームも打ちます(両方増える)。風がない日は、両方打てません(両方減る)。

(共分散 \(\text{Cov} = +5\))

  • 計算: \(10 + 10 – (2 \times 5) = 20 – 10 = \mathbf{10}\)
  • 解釈: ここが面白いところです!
    • 「自分 10点 vs 相手 8点」(両方打った)
    • 「自分 2点 vs 相手 0点」(両方打てない)
    • どちらの展開でも、「点差」は2点差くらいで安定しています。
    • 一緒に動く(正の相関)と、引き算した時の差のバラつきは小さくなるのです。

ケース③:逆に動く(負の相関)

例:シーソーゲームの心理戦。自チームが点取ると油断して守備が崩れる(相手が増える)。自チームが取れないと集中して守る(相手が減る)。あるいは、「エース対決」で片方が崩れるともう片方が勢いづく場合など。

(共分散 \(\text{Cov} = -5\))

  • 計算: \(10 + 10 – (2 \times -5) = 20 + 10 = \mathbf{30}\)
  • 解釈:
    • 「自分 10点 vs 相手 0点」
    • 「自分 0点 vs 相手 10点」
    • 逆方向に動くため、点差は「圧勝」か「惨敗」か、ものすごく激しく変動(分散が最大化)します。

まとめ

これまでの解説をまとめた「確率変数の和と差」の総まとめ表です。

特に「分散の引き算(差の分散)」が、「足し算」になる点にご注意ください。

確率変数の和と差 まとめ

項目数式 (一般式)独立の場合 (Cov=0)意味・イメージ野球での具体例
和の期待値

\(E[X+Y]\)
\(E[X] + E[Y]\)同じ

(\(E[X] + E[Y]\))
平均の合計

常に単純な足し算でOK。
「4番と5番の合計HR数」

仲が良くても悪くても、個人の平均を足せば求まる。
差の期待値

\(E[X-Y]\)
\(E[X] – E[Y]\)同じ

(\(E[X] – E[Y]\))
平均の差

常に単純な引き算でOK。
「平均何点差で勝てるか」

自チームの平均得点から、相手の平均得点を引く。
和の分散

\(V[X+Y]\)
\(V[X] + V[Y]\)

\(\mathbf{+\, 2\text{Cov}(X, Y)}\)
単純な和

(\(V[X] + V[Y]\))
合計値のバラつき

正の相関なら波が荒くなり、負の相関なら安定する。
「コンビの好不調の波」

一緒に打つコンビ(正の相関)は、大量点か0点か極端になる。
差の分散

\(V[X-Y]\)
\(V[X] \mathbf{+\, V[Y]}\)

\(\mathbf{-\, 2\text{Cov}(X, Y)}\)
単純な和

(\(V[X] \mathbf{+\, V[Y]}\))
差のバラつき

引き算でもリスクは加算される(足し算)。
「点差の読めなさ」

お互い波が激しいチーム同士だと、点差の予測は非常に難しくなる。

最後のポイント

  • 期待値 (\(E\)) は「素直」:相関関係を気にせず、足したり引いたりしてOK。
  • 分散 (\(V\)) は「慎重」
    • 独立していても、リスクは必ず積み上がる(足し算になる)
    • 関係性がある場合(\(\text{Cov} \neq 0\))は、補正項(\(2\text{Cov}\))が必要になる。