離散型確率変数(りさんがたかくりつへんすう)

確率変数(かくりつへんすう)」の世界に入っていきます。まずは、その第一歩である「離散型確率変数(りさんがたかくりつへんすう)」について解説します。

「確率変数」とは何か?

事象と、確率変数の最大の違いは、「言葉」か「数字」かという点です。

  • 事象:
    • 「ヒット」「ホームラン」「三振」
    • これらは「出来事」であり、そのままでは足し算や引き算ができません。「ヒット + 三振」は計算できませんよね。
  • 確率変数:
    • 「1塁打」「4打点」
    • 出来事を「数値」に対応させます。数値になれば、平均を出したり、予測したりと、数学の道具がすべて使えるようになります。

この「どのような値が出るかが、確率によって決まる変数」のことを、確率変数(Random Variable)と呼び、通常は大文字のアルファベット \(X\) などで表します。

野球で例えるなら、「打席に入る前のバッター」そのものが確率変数 \(X\) です。

そのバッターが打席を終えたとき、はじめて \(X=1\)(ヒット)や \(X=0\)(アウト)といった具体的な「値(実現値)」が決まります。

「離散型」とはどういうことか?

確率変数には大きく分けて2つの種類があります。「離散型」と「連続型」です。

今回は「離散型(りさんがた)」に注目します。

「離散」とは、文字通り「値が離れ離れになっている(トビトビである)」という意味です。

野球における「離散型」の例

最もわかりやすいのが「得点」や「塁打数」です。

  • 野球の得点は、1点、2点、3点…と増えていきます。
  • 「1.5点」や「3.14点」というスコアは存在しません。
  • ホームランは「4」塁打、シングルヒットは「1」塁打です。「2.8塁打」はありません。

このように、サイコロの目のように「指で数えられる値(整数など)」しか取らない変数を、離散型確率変数と呼びます。

具体例:打者の「獲得塁打数」をモデル化する

では、具体的なバッターの成績を使って、離散型確率変数を定義してみましょう。

あるバッターが打席に立ったとき、獲得できる「塁打数」を確率変数 \(X\) とします。

\(X\) が取りうる値は \(\{0, 1, 2, 3, 4\}\) の5パターンしかありません(四死球やエラーは一旦無視して単純化します)。

このバッターの能力(確率)が以下の通りだとします。

  • アウト (\(X=0\)): 確率は 0.70 (70%)
  • シングルヒット (\(X=1\)): 確率は 0.20 (20%)
  • ツーベース (\(X=2\)): 確率は 0.05 (5%)
  • スリーベース (\(X=3\)): 確率は 0.01 (1%)
  • ホームラン (\(X=4\)): 確率は 0.04 (4%)

この状況全体を記述したものを「確率分布(かくりつぶんぷ)」と言います。

「値」と「確率」の対応表を見てみましょう。

塁打数 (xk​)0 (アウト)1 (単打)2 (二塁打)3 (三塁打)4 (本塁打)
確率 (\(P(X=x_k)\))0.700.200.050.010.041.00

これが離散型確率変数です。

これまでの「打率3割」というざっくりした話から、「どの結果がどのくらいの確率で起こるか」という詳細な「内訳」が見えるようになりました。

確率質量関数

少しだけ専門用語を使いますが、この「値 \(x\)」に対応する「確率 \(P\)」を与えるルールのことを、確率質量関数(Probability Mass Function, PMF)と呼びます。

数式で書くとこうなります。

$$P(X = x)$$

または

$$f(x) = P(X = x)$$

野球の例で言えば、

$$P(X=4) = 0.04$$

これは「確率変数 \(X\)(打席の結果)が、\(4\)(ホームラン)という値を取る確率は、4%です」と読みます。

この関数の重要なルールは2つだけです。

  1. 確率は絶対にマイナスにならない

\(P(X=x) \ge 0\)

(「マイナス50%の確率でホームラン」なんてあり得ません)

  1. すべての確率を足すと必ず 1 (100%) になる

\(\sum P(X=x_k) = 1\)

(アウトかヒットか、何かしらの結果は必ず出るため)

グラフでイメージする

離散型確率変数の分布をグラフにすると、「棒グラフ」になります。

  • 横軸に「塁打数(0, 1, 2, 3, 4)」を取ります。
  • 縦軸に「確率」を取ります。
  • 「0」のところに高さ0.7の棒が立ち、「1」のところに高さ0.2の棒が立ちます。

このグラフを見ると、バッターの特徴が一目でわかります。

  • 「0」の棒が低く、「1」の棒が高い \(\rightarrow\) アベレージヒッター
  • 「0」の棒は高いが、「4」の棒もそこそこ高い \(\rightarrow\) ホームランバッター型

確率変数を導入することで、選手の個性を「数字の分布(グラフの形)」として比較できるようになるのです。

なぜ「変数」と呼ぶのか?

ここでよくある疑問に答えておきましょう。

「なんで単なるデータの集まりなのに、『変数』なんてややこしい名前で呼ぶの?」

それは、「試行するまで何が出るかわからないから」です。

数学の方程式 \(x + 3 = 5\) の \(x\) は「未知数」ですが、答えは「2」と決まっています。

しかし、確率変数 \(X\) は、サイコロを振る(打席に立つ)たびに、中身がコロコロ変わります。

  • 第1打席:\(X = 1\)(ヒット)
  • 第2打席:\(X = 0\)(アウト)
  • 第3打席:\(X = 4\)(ホームラン)

このように、「確率という法則に従って、値が動的に変化する箱」だからこそ、「変数」と呼ぶのです。

そして、この \(X\) が将来どのような値を取りそうか、その「平均的な期待値」や「振れ幅(リスク)」を計算するために、次のステップである期待値や分散が必要になってきます。


まとめ

  • 確率変数 (\(X\)): 偶然によって値が決まる変数のこと。野球なら「打席の結果を数値化したもの」。
  • 離散型: 値がトビトビ(整数など)であること。野球の得点や塁打数のように、1.5点などが存在しない世界。
  • 確率分布: どの値がどれくらいの確率で出るかの対応表。

「離散型」を理解できれば、次の「連続型(球速など)」との対比もスムーズに理解できるはずです。