1人の選手(1つの確率変数)の分析ができるようになったら、次は「チーム全体の分析」です。
野球は9人で戦うスポーツです。「1番打者(変数\(X\))」と「2番打者(変数\(Y\))」を組み合わせると、チームとしてどれくらいの得点力(和)になるのか?あるいは、エース(\(X\))と相手エース(\(Y\))の実力差(差)はどれくらいか?
このように、複数の確率変数を足したり引いたりした時のルール、「和と差」について説明します。
1. 同時分布(Joint Distribution)
1. 離散型同時確率分布(Joint Probability Distribution)
2つの変数(今回は「勝敗」と「場所」)が、同時に特定の組み合わせになる確率を表したものです。
ここでは、以下の2つの確率変数を定義します。
- \(X\) = 勝敗(勝、負、引)
- \(Y\) = 場所(ホーム、ビジター)
各セルの数値を全試合数(143)で割ることで、同時確率 \(P(X, Y)\) が求められます。
【計算式】例:ホームで勝つ確率 = \(44 \div 143 \approx 0.3077\) (30.8%)
【同時確率分布表】表の中の数値(%)が、それぞれの「同時確率」です。
| 勝敗 (X) | 場所 (Y) | ホーム | ビジター |
| 勝 (Win) | 30.8%(\(44/143\)) | 18.2%(\(26/143\)) |
| 負 (Loss) | 18.2%(\(26/143\)) | 30.0%(\(43/143\)) |
| 引 (Draw) | 0.7%(\(1/143\)) | 2.1%(\(3/143\)) |
- 解説: この表全体が「同時確率分布」です。「ホームであり、かつ勝つ確率は約30.8%である」といったように、2つの条件が重なる確率を示しています。これら6つの確率をすべて足すと \(100\%\) (\(1.0\)) になります。
2. 周辺確率分布(Marginal Probability Distribution)
同時確率分布の表から、片方の変数だけに注目して集計した確率分布のことです。
表の「端(マージン)」に合計を書き足すイメージです。
- 「場所」を無視して、「勝敗」だけの確率を知りたい場合
- 「勝敗」を無視して、「場所」だけの確率を知りたい場合
これらを計算するために、行ごと、または列ごとに確率を足し合わせます。
【周辺確率分布つきの表】
| 勝敗 | 場所 | ホーム | ビジター | 合計 (周辺確率) |
| 勝 | 30.8% | 18.2% | 49.0% |
| 負 | 18.2% | 30.0% | 48.2% |
| 引 | 0.7% | 2.1% | 2.8% |
| 合計 (周辺確率) | 49.7% | 50.3% | 100% |
- 解説:
- 右端の列(49.0%, 48.2%, 2.8%)が、「勝敗 (\(X\)) の周辺確率分布」です。「ホームかビジターかに関係なく、巨人が勝つ確率は49.0%」ということを示します。
- 下端の行(49.7%, 50.3%)が、「場所 (\(Y\)) の周辺確率分布」です。「勝敗に関係なく、試合がホームで行われる確率は49.7%」ということを示します(日程の偏りなどで完全な50%にならない場合)。
3. 周辺確率関数(Marginal Probability Function)
周辺確率分布を数式(関数)として表現したものです。基本的には「もう片方の変数の確率をすべて足し合わせる(和をとる)」という操作を行います。
数学的には以下のように書きます。
$$P_X(x) = \sum_{y} P(x, y)$$
これは、「\(X\)(勝敗)のある値 \(x\)(例:勝ち)における周辺確率は、\(Y\)(場所)のすべてのパターン(ホームとビジター)の同時確率を足したもの」という意味です。
【具体的な計算例】
① 勝敗 (\(X\)) の周辺確率関数
「勝つ」確率 \(P_X(\text{勝})\) を求める場合:
$$P_X(\text{勝}) = P(\text{勝}, \text{ホーム}) + P(\text{勝}, \text{ビジター})$$
$$P_X(\text{勝}) = 0.308 + 0.182 = 0.490$$
② 場所 (\(Y\)) の周辺確率関数
「ホーム」である確率 \(P_Y(\text{ホーム})\) を求める場合:
$$P_Y(\text{ホーム}) = P(\text{勝}, \text{ホーム}) + P(\text{負}, \text{ホーム}) + P(\text{引}, \text{ホーム})$$
$$P_Y(\text{ホーム}) = 0.308 + 0.182 + 0.007 = 0.497$$
まとめ
野球のデータで例えると、それぞれの違いは以下のようになります。
- 同時確率分布: 「ホームで」かつ「勝つ」確率は?(クロス集計の中身)
- 周辺確率分布: ホーム・ビジター関係なく、単純に「勝つ」確率は?(合計欄の分布)
- 周辺確率関数: 上記の合計確率を求めるための「足し算の数式」
このデータを見ると、ホームでの勝率が非常に高い一方で、ビジターでは負け越していることが、同時確率分布の偏りからはっきりと見て取れますね。
同時確率と条件付き確率の違い
- 同時確率:全体(143)の中で、「ホームかつ勝ち(44)」の割合(約30.8%)
- 条件付き確率:ホーム(71)の中で、「勝ち(44)」の割合(約62.0%)
条件付き確率を使うと、漠然とした全体データから「特定の状況下での強さ」や「傾向」をあぶり出すことができます。
2. 和と差の期待値
1. 和の期待値 \(E[X + Y]\)
~単純な足し算でOK!~
ルール 2つの確率変数 \(X\) と \(Y\) があるとき、その和の期待値は、それぞれの期待値を足したものになります。
$$E[X + Y] = E[X] + E[Y]$$
野球での例:チームの年間ホームラン数
- 変数 \(X\): 4番バッターの年間ホームラン数(期待値 \(E[X] = 30\)本)
- 変数 \(Y\): 5番バッターの年間ホームラン数(期待値 \(E[Y] = 20\)本)
Q. この「4番・5番コンビ」で、年間合計何本のホームランが期待できるか?
A. 単純に足すだけです。
$$30 + 20 = 50 \text{本}$$
【超重要ポイント】「独立」じゃなくても成り立つ!
ここが分散(バラつき)との最大の違いです。期待値の場合、2人の仲が良い(相乗効果がある)か悪い(足の引っ張り合いがある)かは関係ありません。
- 「4番が敬遠されたら5番が燃えて打つ」という関係があっても、
- 「4番が打つと5番は気が緩む」という関係があっても、
個々の平均がわかっていれば、合計の平均は必ず足し算で求められます。
2. 差の期待値 \(E[X – Y]\)
~単純な引き算でOK!~
ルール 差の期待値も同様に、それぞれの期待値を引いたものになります。
$$E[X – Y] = E[X] – E[Y]$$
野球での例:試合の得点差(勝てる見込み)
- 変数 \(X\): 自チームの平均得点(期待値 \(E[X] = 4.5\)点)
- 変数 \(Y\): 相手チームの平均得点(期待値 \(E[Y] = 3.2\)点)
Q. この試合、平均して何点差で勝つ(または負ける)ことが期待できるか?
A. 単純に引くだけです。
$$4.5 – 3.2 = +1.3 \text{点}$$
つまり、「平均して1.3点リードして終わるだろう」と予測できます。
3. 定数倍の公式 \(E[aX + b]\)
~おまけ:下駄を履かせたり、倍にしたり~
確率変数に決まった数(定数)を足したり掛けたりした場合も、期待値は素直に反応します。
$$E[aX + b] = a \times E[X] + b$$
野球での例:年俸の計算
ある選手の成績(\(X\):ヒット数)に応じてボーナスが出るとします。
- 基本給:1000万円(定数 \(b\))
- ヒット1本につき:10万円(係数 \(a\))
- この選手の平均ヒット数(\(E[X]\)):150本
Q. この選手の年俸の期待値は?
$$E[10X + 1000] = 10 \times 150 + 1000 = 2500 \text{万円}$$
3. 和の分散
「期待値(平均)」は単純な足し算ができましたが、「分散(バラつき)」はそう単純にはいかない、という点が最大のポイントです。
バラつきは、単純に足していい時と、ダメな時がある
あるタスクの「所要時間」を見積もるとします。
- 作業A: 平均1時間だが、調子の波があり、バラつき(リスク)がある。
- 作業B: 平均1時間だが、こちらも調子の波があり、バラつき(リスク)がある。
この2つの作業を合わせた「合計時間」のバラつきはどうなるでしょうか?
ここには「2つの作業の関係性」によって3つのパターンが生まれます。
- 無関係の場合(独立): Aが長引こうが早く終わろうが、Bには関係ない場合。 このとき、合計のバラつきは、AのリスクとBのリスクを単純に足し合わせたものになります。
- 連動する場合(正の相関): 「Aがトラブルで遅れると、その影響でBも調子を崩して遅れる」という場合。 悪いことが重なる(逆に良いことも重なる)ため、合計のバラつきは、単純な足し算よりも「もっと大きく」なります(大成功か大失敗か、極端になる)。
- 打ち消し合う場合(負の相関): 「Aが遅れたら、Bが慌てて急いで取り戻す」という場合。 遅れをカバーし合うため、合計のバラつきは、単純な足し算よりも「小さく」なります(全体として安定する)。
つまり、和の分散とは「個々のバラつきの合計」に、「お互いの相乗効果(プラスかマイナスか)」を加えたものと言えます。
「共分散」という調整項
上記の言葉を、数学の記号に変換します。
- \(V[X]\):変数Xの分散(バラつき)
- \(V[Y]\):変数Yの分散(バラつき)
- \(\text{Cov}(X, Y)\):共分散(お互いの関係性)
基本公式
$$V[X + Y] = V[X] + V[Y] + 2\text{Cov}(X, Y)$$
この式は、「2乗の展開公式」 \((x+y)^2 = x^2 + y^2 + 2xy\) に非常によく似ています。
最後の \(2\text{Cov}(X, Y)\) という部分が、先ほど説明した「相乗効果」です。
ケース別の計算
- 独立している(無関係)場合:
関係がないので、共分散 \(\text{Cov}(X, Y) = 0\) になります。
$$V[X + Y] = V[X] + V[Y]$$
(ここで初めて単純な足し算になります)
- 正の相関がある(連動する)場合:
共分散がプラスなので、全体の分散は 足し算より大きくなります。
$$V[X + Y] > V[X] + V[Y]$$
- 負の相関がある(打ち消し合う)場合:
共分散がマイナスなので、全体の分散は 足し算より小さくなります。
$$V[X + Y] < V[X] + V[Y]$$
野球で説明する具体的な事例~1番打者と2番打者の「コンビのムラっ気」~
では、具体的に野球の「1・2番コンビ」で考えてみましょう。
監督として、「この2人のコンビは、試合ごとに得点力が安定しているか? それともギャンブル的か?」(=分散の大きさ)を知りたいとします。
- 1番打者 (\(X\)): 気分屋で、調子が良い日は打ちまくるが、悪い日はサッパリ。(分散 \(V[X] = 10\))
- 2番打者 (\(Y\)): 同じく気分屋。(分散 \(V[Y] = 10\))
単純に足すと \(10 + 10 = 20\) ですが、2人の関係性で結果が変わります。
ケース①:お互い我関せず(独立)
1番が出塁しようが凡退しようが、2番は自分のペースで打席に立つタイプ。
- 計算: \(10 + 10 = \mathbf{20}\)
- 解釈: チームとしての波の大きさは、2人の個性を単純に足した分だけになります。
ケース②:イケイケムード(正の相関)
1番がヒットを打つと、2番も「俺も!」と燃えて打ち出す。逆に1番が倒れると、2番もシュンとして凡退する。
(共分散 \(\text{Cov}(X, Y) = +5\) とします)
- 計算: \(10 + 10 + (2 \times 5) = 20 + 10 = \mathbf{30}\)
- 解釈: 「2人とも爆発」か「2人とも沈黙」のどちらかになりやすい。チームの得点力は0点か大量点か、極端に激しく変動(分散が増大)します。
ケース③:カバーし合う関係(負の相関)
1番が凡退すると、2番が「俺がなんとかしなきゃ」と集中して打つ。逆に1番が出ると、2番はバントなどで手堅くいく(自分のヒットは減る)。
(共分散 \(\text{Cov}(X, Y) = -5\) とします)
- 計算: \(10 + 10 + (2 \times -5) = 20 – 10 = \mathbf{10}\)
- 解釈: どちらかがダメでも片方が補うため、毎回そこそこの結果を残します。チームとしての結果は非常に安定(分散が減少)します。
4. 差の分散
不確実性の拡大~「違い」を予測するのは、もっと難しい~
まず、直感的なイメージから入りましょう。
あなたは、自分のチーム(\(X\))と相手チーム(\(Y\))の試合結果、つまり「点差(勝敗の行方)」を予測しようとしています。
- 自チーム (X): 調子の波が激しい(分散がある)。
- 相手チーム (Y): 相手も調子の波が激しい(分散がある)。
さて、「点差(\(X – Y\))」の予測のしやすさ(バラつき)はどうなるでしょうか?
「引き算だから、バラつきも引かれて小さくなる(予測しやすくなる)?」
いいえ、逆です。
- 自チームが「絶好調」で、相手が「絶不調」なら、大差で勝ちます。
- 自チームが「絶不調」で、相手が「絶好調」なら、大差で負けます。
お互いに波があるせいで、点差の可能性は「大勝ち」から「大負け」まで、個々の波よりもさらに大きく広がってしまうのです。
つまり、変数を引き算しても、不確実性(リスク)は積み重なって増えていくのです。これが基本の感覚です。
数式による説明~符号の逆転トリック~
これを数式で確認してみましょう。
- \(V[X]\):変数Xの分散
- \(V[Y]\):変数Yの分散
- \(\text{Cov}(X, Y)\):共分散
基本公式
$$V[X – Y] = V[X] \mathbf{+} V[Y] – 2\text{Cov}(X, Y)$$
【重要ポイント1:分散は足す】式の前半を見てください。\(X – Y\) の分散を求めているのに、右辺では \(V[X] + V[Y]\) と足し算になっています。(数学的には、\(-1\) を2乗すると \(+1\) になるため、マイナスの変数の分散もプラスとして加算されるからです)
【重要ポイント2:共分散は引く】式の後半は \(-2\text{Cov}(X, Y)\) となっています。和の分散のときと符号が逆です。これが「関係性」の影響を逆転させます。
野球の事例による説明~「点差」はいつ安定するのか?~
「自チームの得点 (\(X\))」引く「相手チームの得点 (\(Y\))」= 「点差」のバラつきについて、2チームの関係性ごとに見てみましょう。(それぞれの得点の分散は \(V[X]=10, V[Y]=10\) とします)
ケース①:無関係(独立)
普通の試合です。相手の調子は自分たちに関係ありません。
- 計算: \(10 + 10 = \mathbf{20}\)
- 解釈: 点差の変動幅は、お互いの調子の波を単純に足し合わせた分だけ大きくなります。
ケース②:一緒に動く(正の相関)
例:強風が吹いている球場。風に乗ってホームランが出やすい日は、自チームも打ちますが、相手チームも打ちます(両方増える)。風がない日は、両方打てません(両方減る)。
(共分散 \(\text{Cov} = +5\))
- 計算: \(10 + 10 – (2 \times 5) = 20 – 10 = \mathbf{10}\)
- 解釈: ここが面白いところです!
- 「自分 10点 vs 相手 8点」(両方打った)
- 「自分 2点 vs 相手 0点」(両方打てない)
- どちらの展開でも、「点差」は2点差くらいで安定しています。
- 一緒に動く(正の相関)と、引き算した時の差のバラつきは小さくなるのです。
ケース③:逆に動く(負の相関)
例:シーソーゲームの心理戦。自チームが点取ると油断して守備が崩れる(相手が増える)。自チームが取れないと集中して守る(相手が減る)。あるいは、「エース対決」で片方が崩れるともう片方が勢いづく場合など。
(共分散 \(\text{Cov} = -5\))
- 計算: \(10 + 10 – (2 \times -5) = 20 + 10 = \mathbf{30}\)
- 解釈:
- 「自分 10点 vs 相手 0点」
- 「自分 0点 vs 相手 10点」
- 逆方向に動くため、点差は「圧勝」か「惨敗」か、ものすごく激しく変動(分散が最大化)します。
まとめ
これまでの解説をまとめた「確率変数の和と差」の総まとめ表です。
特に「分散の引き算(差の分散)」が、「足し算」になる点にご注意ください。
確率変数の和と差 まとめ
| 項目 | 数式 (一般式) | 独立の場合 (Cov=0) | 意味・イメージ | 野球での具体例 |
| 和の期待値 \(E[X+Y]\) | \(E[X] + E[Y]\) | 同じ (\(E[X] + E[Y]\)) | 平均の合計 常に単純な足し算でOK。 | 「4番と5番の合計HR数」 仲が良くても悪くても、個人の平均を足せば求まる。 |
| 差の期待値 \(E[X-Y]\) | \(E[X] – E[Y]\) | 同じ (\(E[X] – E[Y]\)) | 平均の差 常に単純な引き算でOK。 | 「平均何点差で勝てるか」 自チームの平均得点から、相手の平均得点を引く。 |
| 和の分散 \(V[X+Y]\) | \(V[X] + V[Y]\) \(\mathbf{+\, 2\text{Cov}(X, Y)}\) | 単純な和 (\(V[X] + V[Y]\)) | 合計値のバラつき 正の相関なら波が荒くなり、負の相関なら安定する。 | 「コンビの好不調の波」 一緒に打つコンビ(正の相関)は、大量点か0点か極端になる。 |
| 差の分散 \(V[X-Y]\) | \(V[X] \mathbf{+\, V[Y]}\) \(\mathbf{-\, 2\text{Cov}(X, Y)}\) | 単純な和 (\(V[X] \mathbf{+\, V[Y]}\)) | 差のバラつき 引き算でもリスクは加算される(足し算)。 | 「点差の読めなさ」 お互い波が激しいチーム同士だと、点差の予測は非常に難しくなる。 |
最後のポイント
- 期待値 (\(E\)) は「素直」:相関関係を気にせず、足したり引いたりしてOK。
- 分散 (\(V\)) は「慎重」:
- 独立していても、リスクは必ず積み上がる(足し算になる)。
- 関係性がある場合(\(\text{Cov} \neq 0\))は、補正項(\(2\text{Cov}\))が必要になる。