確率変数(かくりつへんすう)」の世界に入っていきます。まずは、その第一歩である「離散型確率変数(りさんがたかくりつへんすう)」について解説します。
「確率変数」とは何か?
事象と、確率変数の最大の違いは、「言葉」か「数字」かという点です。
- 事象:
- 「ヒット」「ホームラン」「三振」
- これらは「出来事」であり、そのままでは足し算や引き算ができません。「ヒット + 三振」は計算できませんよね。
- 確率変数:
- 「1塁打」「4打点」
- 出来事を「数値」に対応させます。数値になれば、平均を出したり、予測したりと、数学の道具がすべて使えるようになります。
この「どのような値が出るかが、確率によって決まる変数」のことを、確率変数(Random Variable)と呼び、通常は大文字のアルファベット \(X\) などで表します。
野球で例えるなら、「打席に入る前のバッター」そのものが確率変数 \(X\) です。
そのバッターが打席を終えたとき、はじめて \(X=1\)(ヒット)や \(X=0\)(アウト)といった具体的な「値(実現値)」が決まります。
「離散型」とはどういうことか?
確率変数には大きく分けて2つの種類があります。「離散型」と「連続型」です。
今回は「離散型(りさんがた)」に注目します。
「離散」とは、文字通り「値が離れ離れになっている(トビトビである)」という意味です。
野球における「離散型」の例
最もわかりやすいのが「得点」や「塁打数」です。
- 野球の得点は、1点、2点、3点…と増えていきます。
- 「1.5点」や「3.14点」というスコアは存在しません。
- ホームランは「4」塁打、シングルヒットは「1」塁打です。「2.8塁打」はありません。
このように、サイコロの目のように「指で数えられる値(整数など)」しか取らない変数を、離散型確率変数と呼びます。
具体例:打者の「獲得塁打数」をモデル化する
では、具体的なバッターの成績を使って、離散型確率変数を定義してみましょう。
あるバッターが打席に立ったとき、獲得できる「塁打数」を確率変数 \(X\) とします。
\(X\) が取りうる値は \(\{0, 1, 2, 3, 4\}\) の5パターンしかありません(四死球やエラーは一旦無視して単純化します)。
このバッターの能力(確率)が以下の通りだとします。
- アウト (\(X=0\)): 確率は 0.70 (70%)
- シングルヒット (\(X=1\)): 確率は 0.20 (20%)
- ツーベース (\(X=2\)): 確率は 0.05 (5%)
- スリーベース (\(X=3\)): 確率は 0.01 (1%)
- ホームラン (\(X=4\)): 確率は 0.04 (4%)
この状況全体を記述したものを「確率分布(かくりつぶんぷ)」と言います。
「値」と「確率」の対応表を見てみましょう。
| 塁打数 (xk) | 0 (アウト) | 1 (単打) | 2 (二塁打) | 3 (三塁打) | 4 (本塁打) | 計 |
| 確率 (\(P(X=x_k)\)) | 0.70 | 0.20 | 0.05 | 0.01 | 0.04 | 1.00 |
これが離散型確率変数です。
これまでの「打率3割」というざっくりした話から、「どの結果がどのくらいの確率で起こるか」という詳細な「内訳」が見えるようになりました。
確率質量関数
少しだけ専門用語を使いますが、この「値 \(x\)」に対応する「確率 \(P\)」を与えるルールのことを、確率質量関数(Probability Mass Function, PMF)と呼びます。
数式で書くとこうなります。
$$P(X = x)$$
または
$$f(x) = P(X = x)$$
野球の例で言えば、
$$P(X=4) = 0.04$$
これは「確率変数 \(X\)(打席の結果)が、\(4\)(ホームラン)という値を取る確率は、4%です」と読みます。
この関数の重要なルールは2つだけです。
- 確率は絶対にマイナスにならない
\(P(X=x) \ge 0\)
(「マイナス50%の確率でホームラン」なんてあり得ません)
- すべての確率を足すと必ず 1 (100%) になる
\(\sum P(X=x_k) = 1\)
(アウトかヒットか、何かしらの結果は必ず出るため)
グラフでイメージする
離散型確率変数の分布をグラフにすると、「棒グラフ」になります。
- 横軸に「塁打数(0, 1, 2, 3, 4)」を取ります。
- 縦軸に「確率」を取ります。
- 「0」のところに高さ0.7の棒が立ち、「1」のところに高さ0.2の棒が立ちます。
このグラフを見ると、バッターの特徴が一目でわかります。

- 「0」の棒が低く、「1」の棒が高い \(\rightarrow\) アベレージヒッター
- 「0」の棒は高いが、「4」の棒もそこそこ高い \(\rightarrow\) ホームランバッター型
確率変数を導入することで、選手の個性を「数字の分布(グラフの形)」として比較できるようになるのです。
なぜ「変数」と呼ぶのか?
ここでよくある疑問に答えておきましょう。
「なんで単なるデータの集まりなのに、『変数』なんてややこしい名前で呼ぶの?」
それは、「試行するまで何が出るかわからないから」です。
数学の方程式 \(x + 3 = 5\) の \(x\) は「未知数」ですが、答えは「2」と決まっています。
しかし、確率変数 \(X\) は、サイコロを振る(打席に立つ)たびに、中身がコロコロ変わります。
- 第1打席:\(X = 1\)(ヒット)
- 第2打席:\(X = 0\)(アウト)
- 第3打席:\(X = 4\)(ホームラン)
このように、「確率という法則に従って、値が動的に変化する箱」だからこそ、「変数」と呼ぶのです。
そして、この \(X\) が将来どのような値を取りそうか、その「平均的な期待値」や「振れ幅(リスク)」を計算するために、次のステップである期待値や分散が必要になってきます。
まとめ
- 確率変数 (\(X\)): 偶然によって値が決まる変数のこと。野球なら「打席の結果を数値化したもの」。
- 離散型: 値がトビトビ(整数など)であること。野球の得点や塁打数のように、1.5点などが存在しない世界。
- 確率分布: どの値がどれくらいの確率で出るかの対応表。
「離散型」を理解できれば、次の「連続型(球速など)」との対比もスムーズに理解できるはずです。