離散型確率変数（りさんがたかくりつへんすう）

確率変数（かくりつへんすう）」の世界に入っていきます。まずは、その第一歩である「離散型確率変数（りさんがたかくりつへんすう）」について解説します。

「確率変数」とは何か？

事象と、確率変数の最大の違いは、「言葉」か「数字」かという点です。

事象：
- 「ヒット」「ホームラン」「三振」
- これらは「出来事」であり、そのままでは足し算や引き算ができません。「ヒット＋三振」は計算できませんよね。
確率変数：
- 「1塁打」「4打点」
- 出来事を「数値」に対応させます。数値になれば、平均を出したり、予測したりと、数学の道具がすべて使えるようになります。

この「どのような値が出るかが、確率によって決まる変数」のことを、確率変数（Random Variable）と呼び、通常は大文字のアルファベット $X$ などで表します。

野球で例えるなら、「打席に入る前のバッター」そのものが確率変数 $X$ です。

そのバッターが打席を終えたとき、はじめて $X=1$（ヒット）や $X=0$（アウト）といった具体的な「値（実現値）」が決まります。

「離散型」とはどういうことか？

確率変数には大きく分けて2つの種類があります。「離散型」と「連続型」です。

今回は「離散型（りさんがた）」に注目します。

「離散」とは、文字通り「値が離れ離れになっている（トビトビである）」という意味です。

野球における「離散型」の例

最もわかりやすいのが「得点」や「塁打数」です。

野球の得点は、1点、2点、3点…と増えていきます。
「1.5点」や「3.14点」というスコアは存在しません。
ホームランは「4」塁打、シングルヒットは「1」塁打です。「2.8塁打」はありません。

このように、サイコロの目のように「指で数えられる値（整数など）」しか取らない変数を、離散型確率変数と呼びます。

具体例：打者の「獲得塁打数」をモデル化する

では、具体的なバッターの成績を使って、離散型確率変数を定義してみましょう。

あるバッターが打席に立ったとき、獲得できる「塁打数」を確率変数 $X$ とします。

$X$ が取りうる値は $\{0, 1, 2, 3, 4\}$ の5パターンしかありません（四死球やエラーは一旦無視して単純化します）。

このバッターの能力（確率）が以下の通りだとします。

アウト ($X=0$)： 確率は 0.70 (70%)
シングルヒット ($X=1$)： 確率は 0.20 (20%)
ツーベース ($X=2$)： 確率は 0.05 (5%)
スリーベース ($X=3$)： 確率は 0.01 (1%)
ホームラン ($X=4$)： 確率は 0.04 (4%)

この状況全体を記述したものを「確率分布（かくりつぶんぷ）」と言います。

「値」と「確率」の対応表を見てみましょう。

塁打数 (xk)	0 (アウト)	1 (単打)	2 (二塁打)	3 (三塁打)	4 (本塁打)	計
確率 ($P(X=x_k)$)	0.70	0.20	0.05	0.01	0.04	1.00

これが離散型確率変数です。

これまでの「打率3割」というざっくりした話から、「どの結果がどのくらいの確率で起こるか」という詳細な「内訳」が見えるようになりました。

確率質量関数

少しだけ専門用語を使いますが、この「値 $x$」に対応する「確率 $P$」を与えるルールのことを、確率質量関数（Probability Mass Function, PMF）と呼びます。

数式で書くとこうなります。

$$P(X = x)$$

または

$$f(x) = P(X = x)$$

野球の例で言えば、

$$P(X=4) = 0.04$$

これは「確率変数 $X$（打席の結果）が、$4$（ホームラン）という値を取る確率は、4%です」と読みます。

この関数の重要なルールは2つだけです。

確率は絶対にマイナスにならない

$P(X=x) \ge 0$

（「マイナス50%の確率でホームラン」なんてあり得ません）

すべての確率を足すと必ず 1 (100%) になる

$\sum P(X=x_k) = 1$

（アウトかヒットか、何かしらの結果は必ず出るため）

グラフでイメージする

離散型確率変数の分布をグラフにすると、「棒グラフ」になります。

横軸に「塁打数（0, 1, 2, 3, 4）」を取ります。
縦軸に「確率」を取ります。
「0」のところに高さ0.7の棒が立ち、「1」のところに高さ0.2の棒が立ちます。

このグラフを見ると、バッターの特徴が一目でわかります。

「0」の棒が低く、「1」の棒が高い $\rightarrow$ アベレージヒッター
「0」の棒は高いが、「4」の棒もそこそこ高い $\rightarrow$ ホームランバッター型

確率変数を導入することで、選手の個性を「数字の分布（グラフの形）」として比較できるようになるのです。

なぜ「変数」と呼ぶのか？

ここでよくある疑問に答えておきましょう。

「なんで単なるデータの集まりなのに、『変数』なんてややこしい名前で呼ぶの？」

それは、「試行するまで何が出るかわからないから」です。

数学の方程式 $x + 3 = 5$ の $x$ は「未知数」ですが、答えは「2」と決まっています。

しかし、確率変数 $X$ は、サイコロを振る（打席に立つ）たびに、中身がコロコロ変わります。

第1打席：$X = 1$（ヒット）
第2打席：$X = 0$（アウト）
第3打席：$X = 4$（ホームラン）

このように、「確率という法則に従って、値が動的に変化する箱」だからこそ、「変数」と呼ぶのです。

そして、この $X$ が将来どのような値を取りそうか、その「平均的な期待値」や「振れ幅（リスク）」を計算するために、次のステップである期待値や分散が必要になってきます。

まとめ

確率変数 ($X$)：偶然によって値が決まる変数のこと。野球なら「打席の結果を数値化したもの」。
離散型：値がトビトビ（整数など）であること。野球の得点や塁打数のように、1.5点などが存在しない世界。
確率分布：どの値がどれくらいの確率で出るかの対応表。

「離散型」を理解できれば、次の「連続型（球速など）」との対比もスムーズに理解できるはずです。

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31