バラバラのデータ(事象)を「要するにどういうこと?」と一言で要約するための3つの重要な指標、期待値・分散・標準偏差について説明します。
野球のスカウトになった気分で、「選手の評価」として捉えると非常にわかりやすくなります。
1. 期待値(Expected Value, \(E[X]\))
~「結局、平均してどれくらい打つの?」~
期待値とは、「その試行を1回行ったとき、平均的にどれくらいの値が得られると期待できるか」という指標です。
一言で言えば「未来の平均点」です。
野球での例:長打力(塁打数の期待値)
あるバッターが打席に入ります。結果は毎回違いますが、「ならして」考えると、1打席あたり何塁打期待できるでしょうか?
【バッターAの確率分布】
- アウト(0塁打):確率 0.7
- 単打(1塁打):確率 0.2
- 本塁打(4塁打):確率 0.1
【計算式】
$$(\text{値} \times \text{確率}) \text{ の合計}$$
$$E[X] = (0 \times 0.7) + (1 \times 0.2) + (4 \times 0.1)$$
$$E[X] = 0 + 0.2 + 0.4 = \mathbf{0.6}$$
意味:このバッターAは、1打席あたり「0.6塁打」進むことが期待できます。
(野球を知っている方なら、これは「長打率(Slugging Percentage)」の概念そのものであることに気づくでしょう!)
2. 分散(Variance, \(V[X]\))
~「その選手、ムラっ気はある?」~
期待値(平均)だけでは見えないものがあります。それは「バラつき」です。
分散は、データが「期待値(平均)からどれくらい離れているか」を数値化したものです。
野球での例:イチロー型 vs 大谷型
以下の2人の選手は、期待値(平均)は同じ「0.6」だとします。
- 選手A(コツコツ型): ほとんどが単打かアウト。大きな失敗もしないが、ホームランもない。
- 選手B(一発屋): 三振(0)かホームラン(4)ばかり。
期待値は同じでも、選手としてのタイプは全然違いますよね。選手Bの方が、結果が平均(0.6)から大きく外れる(0だったり4だったりする)ことが多いです。
この「平均からのズレの2乗の平均」が分散です。
【なぜ2乗するのか?】単にズレを足すと、プラスとマイナスが打ち消し合ってゼロになってしまうからです(例:\(+2\) と \(-2\))。だから、2乗してすべてプラスにしてから足し合わせます。
意味:
- 分散が小さい \(\rightarrow\) 結果が安定している(計算できる選手)
- 分散が大きい \(\rightarrow\) 結果が激しく変動する(ギャンブル性の高い選手)
3. 標準偏差(Standard Deviation, \(\sigma\))
~「で、実際どれくらいズレるの?」~
分散には一つ弱点があります。計算途中で「2乗」してしまったため、単位がおかしくなっているのです。(塁打数の分散を計算すると、単位が「塁打の2乗」という意味不明なものになります)
そこで、分散のルート(\(\sqrt{}\))をとって、単位を元に戻してあげます。これが標準偏差です。
$$\sigma = \sqrt{V[X]}$$
野球での例:ピッチャーのコントロール
あるピッチャーの直球の球速分布で考えます。
- 平均(期待値): 150km/h
この時、標準偏差(\(\sigma\))がどうなるかで、ピッチャーの評価が変わります。
- 投手X(精密機械): \(\sigma = 1\) km/h
- ほとんどの球が \(150 \pm 1\) km/h(149~151km/h)に収まる。
- 計算しやすい、安定した投手。
- 投手Y(荒れ球): \(\sigma = 5\) km/h
- 平気で \(150 \pm 5\) km/h(145~155km/h)の範囲でバラつく。
- 調子が良いときは凄いが、悪いときは遅い。的を絞りにくい。
グラフで見ると一目瞭然です。

- 標準偏差が小さい: 平均値の周りに高く尖った山(バラつきが少ない)
- 標準偏差が大きい: 裾野が広く、平べったい山(バラつきが大きい)
まとめ:3つの指標の関係
| 指標 | 記号 | 野球でのイメージ | 数学的な意味 |
| 期待値 | \(E[X]\) または \(\mu\) | 長打率、打率、防御率 (その選手の実力・平均値) | 分布の「重心」。 \(\sum x_i P(x_i)\) |
| 分散 | \(V[X]\) または \(\sigma^2\) | ムラっ気(の2乗) (計算上の途中経過) | 平均からのズレを2乗して平均したもの。 \(E[(X-\mu)^2]\) |
| 標準偏差 | \(\sigma\) (シグマ) | 計算できる範囲、リスク (実際のズレ幅) | 分散のルート。 データの散らばり具合を元の単位で表す。 |
投資やビジネスへの応用
この考え方は野球以外でも使えます。
- 期待値: この事業は平均していくら儲かるか?
- 標準偏差: その利益はどれくらいブレるリスクがあるか?
ハイリスク・ハイリターンな案件は「期待値は高いが、標準偏差もデカい」と表現できます。