確率変数の期待値・分散・標準偏差

バラバラのデータ(事象)を「要するにどういうこと?」と一言で要約するための3つの重要な指標、期待値・分散・標準偏差について説明します。

野球のスカウトになった気分で、「選手の評価」として捉えると非常にわかりやすくなります。


1. 期待値(Expected Value, \(E[X]\))

~「結局、平均してどれくらい打つの?」~

期待値とは、「その試行を1回行ったとき、平均的にどれくらいの値が得られると期待できるか」という指標です。

一言で言えば「未来の平均点」です。

野球での例:長打力(塁打数の期待値)

あるバッターが打席に入ります。結果は毎回違いますが、「ならして」考えると、1打席あたり何塁打期待できるでしょうか?

【バッターAの確率分布】

  • アウト(0塁打):確率 0.7
  • 単打(1塁打):確率 0.2
  • 本塁打(4塁打):確率 0.1

【計算式】

$$(\text{値} \times \text{確率}) \text{ の合計}$$

$$E[X] = (0 \times 0.7) + (1 \times 0.2) + (4 \times 0.1)$$

$$E[X] = 0 + 0.2 + 0.4 = \mathbf{0.6}$$

意味:このバッターAは、1打席あたり「0.6塁打」進むことが期待できます。

(野球を知っている方なら、これは「長打率(Slugging Percentage)」の概念そのものであることに気づくでしょう!)


2. 分散(Variance, \(V[X]\))

~「その選手、ムラっ気はある?」~

期待値(平均)だけでは見えないものがあります。それは「バラつき」です。

分散は、データが「期待値(平均)からどれくらい離れているか」を数値化したものです。

野球での例:イチロー型 vs 大谷型

以下の2人の選手は、期待値(平均)は同じ「0.6」だとします。

  • 選手A(コツコツ型): ほとんどが単打かアウト。大きな失敗もしないが、ホームランもない。
  • 選手B(一発屋): 三振(0)かホームラン(4)ばかり。

期待値は同じでも、選手としてのタイプは全然違いますよね。選手Bの方が、結果が平均(0.6)から大きく外れる(0だったり4だったりする)ことが多いです。

この「平均からのズレの2乗の平均」が分散です。

【なぜ2乗するのか?】単にズレを足すと、プラスとマイナスが打ち消し合ってゼロになってしまうからです(例:\(+2\) と \(-2\))。だから、2乗してすべてプラスにしてから足し合わせます。

意味:

  • 分散が小さい \(\rightarrow\) 結果が安定している(計算できる選手)
  • 分散が大きい \(\rightarrow\) 結果が激しく変動する(ギャンブル性の高い選手)

3. 標準偏差(Standard Deviation, \(\sigma\))

~「で、実際どれくらいズレるの?」~

分散には一つ弱点があります。計算途中で「2乗」してしまったため、単位がおかしくなっているのです。(塁打数の分散を計算すると、単位が「塁打の2乗」という意味不明なものになります)

そこで、分散のルート(\(\sqrt{}\))をとって、単位を元に戻してあげます。これが標準偏差です。

$$\sigma = \sqrt{V[X]}$$

野球での例:ピッチャーのコントロール

あるピッチャーの直球の球速分布で考えます。

  • 平均(期待値): 150km/h

この時、標準偏差(\(\sigma\))がどうなるかで、ピッチャーの評価が変わります。

  • 投手X(精密機械): \(\sigma = 1\) km/h
    • ほとんどの球が \(150 \pm 1\) km/h(149~151km/h)に収まる。
    • 計算しやすい、安定した投手。
  • 投手Y(荒れ球): \(\sigma = 5\) km/h
    • 平気で \(150 \pm 5\) km/h(145~155km/h)の範囲でバラつく。
    • 調子が良いときは凄いが、悪いときは遅い。的を絞りにくい。

グラフで見ると一目瞭然です。

  • 標準偏差が小さい: 平均値の周りに高く尖った山(バラつきが少ない)
  • 標準偏差が大きい: 裾野が広く、平べったい山(バラつきが大きい)

まとめ:3つの指標の関係

指標記号野球でのイメージ数学的な意味
期待値\(E[X]\) または \(\mu\)長打率、打率、防御率

(その選手の実力・平均値)
分布の「重心」。

\(\sum x_i P(x_i)\)
分散\(V[X]\) または \(\sigma^2\)ムラっ気(の2乗)

(計算上の途中経過)
平均からのズレを2乗して平均したもの。

\(E[(X-\mu)^2]\)
標準偏差\(\sigma\) (シグマ)計算できる範囲、リスク

(実際のズレ幅)
分散のルート。

データの散らばり具合を元の単位で表す。

投資やビジネスへの応用

この考え方は野球以外でも使えます。

  • 期待値: この事業は平均していくら儲かるか?
  • 標準偏差: その利益はどれくらいブレるリスクがあるか?

ハイリスク・ハイリターンな案件は「期待値は高いが、標準偏差もデカい」と表現できます。