前回の「和の分散」で、「2人の関係性(独立かどうか)」によって計算結果が変わるという話をしました。
その「関係性」を数値化する道具が、共分散(きょうぶんさん)と相関(そうかん)です。
1. 共分散(Covariance, \(S_{xy}\))
共分散とは、一言で言うと「2種類のデータが、どれくらい連動して動いているか」を表す数値です。
世の中のデータには、単独では存在せず、ペアで意味を持つものがたくさんあります(身長と体重、気温とビールの売上など)。この2つのデータのペアを見た時、以下の3つのパターンのどれに当てはまるかを確認するのが共分散です。
- 同じ方向に動く(正の関係):
片方のデータが「平均より大きい」とき、もう片方も「平均より大きい」。
(例:身長が高い人は、体重も重い傾向がある)\(\rightarrow\) このとき、共分散は「プラス」になります。 - 逆の方向に動く(負の関係):
片方のデータが「平均より大きい」とき、もう片方は「平均より小さい」。
(例:遊ぶ時間が増えると、テストの点数は下がる傾向がある)\(\rightarrow\) このとき、共分散は「マイナス」になります。 - バラバラに動く(無関係):
片方の大小に関わらず、もう片方は好き勝手な値をとる。
(例:足の速さと、テストの点数)\(\rightarrow\) このとき、共分散は「ゼロ」に近くなります。
つまり、共分散とは「2つのデータの『結びつきの強さと向き』を表すバロメーター」なのです。
共分散の求め方~「ズレ」×「ズレ」の平均~
では、これをどのように計算するのか、数式で見てみましょう。2つの変数 \(X\)と \(Y\) があるとします。それぞれの平均(期待値)を \(E[X]\)、\(E[Y]\) とします。
共分散 \(\text{Cov}(X, Y)\) の定義式は以下の通りです。
$$\text{Cov}(X, Y) = E\big[ (X – E[X]) \times (Y – E[Y]) \big]$$
ちょっと難しく見えますが、中身はシンプルです。
- 偏差(へんさ)をとる
それぞれのデータが、平均からどれくらい離れているか(ズレ)を計算します。
\((X – E[X])\) と \((Y – E[Y])\) - 掛け合わせる
2つのズレを掛け算します。ここがポイントです!
プラス同士(両方平均より上) \(\rightarrow\) プラスになる。
マイナス同士(両方平均より下) \(\rightarrow\) プラスになる。
プラスとマイナス(片方は上、片方は下) \(\rightarrow\) マイナスになる。 - 平均する(期待値 \(E\))
全データの掛け算の結果を平均します。
【結果の解釈】
- プラスの結果(同じ方向へのズレ)が多ければ、合計もプラス(正の相関)。
- マイナスの結果(逆方向へのズレ)が多ければ、合計はマイナス(負の相関)。
- プラスとマイナスが半々で打ち消し合えば、合計はゼロ(無相関)。
野球の事例で共分散を
共分散は、「2つのデータが、平均から見て『同じ方向』に動いているか?」を計算する指標です。
計算の仕組み:プラス×プラス=プラス
2つの変数、打率(\(X\))と年俸(\(Y\))で考えてみましょう。
- A選手(スター): 打率が高い(+)、年俸も高い(+)
- 掛け算すると: \((+) \times (+) = \mathbf{\text{プラス}}\)
- B選手(新人): 打率が低い(-)、年俸も低い(-)
- 掛け算すると: \((-) \times (-) = \mathbf{\text{プラス}}\)
- C選手(コスパ悪い): 打率が低い(-)、年俸は高い(+)
- 掛け算すると: \((-) \times (+) = \mathbf{\text{マイナス}}\)
これら全選手のデータを平均したのが共分散です。
- 共分散がプラス: 「打率が高いほど年俸も高い」傾向がある(正の相関)。
- 共分散がマイナス: 「打率が高いほど年俸は低い」傾向がある(負の相関)。
- 共分散がゼロに近い: お互い関係がない(無相関)。
共分散の弱点:単位が意味不明
共分散には致命的な弱点があります。それは「値の大きさが単位に依存する」ことです。
「打率(%)」と「年俸(円)」の共分散を計算すると、単位が「%・円」という謎のものになり、数字が数億になったりして、「結局それって関係が強いの?弱いの?」が直感的にわかりません。
2. 相関係数(Correlation Coefficient, \(r\))
前回の「共分散」にあった「単位によって数字の大きさが変わってしまう」という弱点を克服し、あらゆるデータを「-1から+1」の範囲で比較できるようにした最強の指標です。
~単位を消して、-1から+1に規格化する~
共分散には、大きな問題点がありました。それは「扱うデータの単位(スケール)によって、計算結果の桁が変わってしまう」ことです。
- 「身長(cm)」と「体重(kg)」の共分散は、数字が大きくなりがちです(例:300)。
- 「視力(0.1単位)」と「聴力(dB)」の共分散は、数字が小さくなりがちです(例:0.5)。
このままでは、「300の身長・体重ペアの方が、0.5の視力・聴力ペアよりも関係が強い」と勘違いしてしまいます。実際は単に「cm」という単位の数字が大きいだけかもしれないのに。
そこで、「単位の影響をキャンセル(無効化)」する操作を行います。
それぞれのデータの「バラつきの大きさ(標準偏差)」で割り算をしてあげるのです。
こうして作られた相関係数は、どんなデータであっても必ず以下のルールに従います。
- 最大値は +1: 完全に同じ動きをする(完全な正の相関)。
- 最小値は -1: 完全に逆の動きをする(完全な負の相関)。
- 0 に近い: 全く関係がない(無相関)。
つまり、相関係数とは「単位という衣(ころも)を剥ぎ取って、裸の関係性(-1~+1)だけにした数値」なのです。これなら、身長・体重ペアと視力・聴力ペアの「関係の強さ」を公平に比較できます。
相関係数の求め方~共分散を、標準偏差で割る~
相関係数は、通常 \(r\) (アール)あるいは \(\rho\) (ロー)という記号で表されます。
データ \(X\) と \(Y\) の相関係数 \(r\) の定義式は以下の通りです。
$$r = \frac{\text{Cov}(X, Y)}{\sigma_X \times \sigma_Y}$$
- \(\text{Cov}(X, Y)\): \(X\) と \(Y\) の共分散
- \(\sigma_X\): \(X\) の標準偏差
- \(\sigma_Y\): \(Y\) の標準偏差
なぜこれで単位が消えるのか?
単位(次元)だけで計算を見てみましょう。例として \(X\) を身長(cm)、\(Y\) を体重(kg)とします。
- 分子(共分散)の単位:
「ズレ(cm) \(\times\) ズレ(kg)」なので、単位は 「cm \(\cdot\) kg」 です。 - 分母(標準偏差 \(\times\) 標準偏差)の単位:
\(X\) の標準偏差は「cm」、\(Y\) の標準偏差は「kg」です。掛けると単位は 「cm \(\cdot\) kg」 になります。 - 割り算:
$$\frac{\text{cm} \cdot \text{kg}}{\text{cm} \cdot \text{kg}} = \text{単位なし}$$
このように、分母と分子で単位がきれいに相殺されるため、純粋な「数値」だけが残るのです。
3. 野球で見る「3つの相関」
相関係数 \(r\) の値によって、2つの変数の関係は以下のように分類されます。これを散布図(さんぷず)というグラフで見ると一目瞭然です。
① 正の相関(\(r\) が \(+1\) に近い)
「片方が増えれば、もう片方も増える」
- 例: 「出塁率」と「得点数」
- 解説: ランナーによく出るチームほど、得点が多くなるのは当然です。
- グラフ: 右上がりの形になります。
② 負の相関(\(r\) が \(-1\) に近い)
「片方が増えれば、もう片方は減る」
- 例: 「チーム防御率」と「勝率」
- 解説: 防御率の数字が増える(点を取られる)ほど、勝率は減ります。一方が良くなると、もう一方は数字上悪くなる関係です。
- グラフ: 右下がりの形になります。
③ 無相関(\(r\) が \(0\) に近い)
「お互い全く関係がない」
- 例: 「選手の背番号」と「ホームラン数」
- 解説: 背番号が大きいからといって、ホームランをたくさん打つわけではありません。
- グラフ: 全体にぼんやりと広がった形(円形)になります。
4. 注意点:相関 \(\neq\) 因果
~「ビールが売れると巨人が勝つ」の謎~
統計を使う上で一番気をつけなければならないのが、「相関関係(一緒に動いている)」と「因果関係(原因と結果)」は違うということです。
例:ある球場で調査したところ、「ビールの売上数」と「チームの得点」に強い正の相関がありました。
- 間違った推論(因果): 「観客がビールを飲めば飲むほど、応援が熱くなって得点が入るんだ! もっとビールを売ろう!」
- 真相(擬似相関): 実は、単に「気温が高い日」だっただけ。
- 気温が高い \(\rightarrow\) ビールが売れる。
- 気温が高い \(\rightarrow\) 空気が乾燥してボールが飛びやすくなり、得点が入る(または投手がバテる)。
このように、隠れた第3の要因(気温)がある場合、見かけ上の相関に騙されてはいけません。これを擬似相関(ぎじそうかん)と呼びます。
\(S_{xy}\)と\(\text{Cov}(X, Y)\)の違い
共分散を表す記号は\(S_{xy}\)と\(\text{Cov}(X, Y)\)どちらも正解です。 ただし、使われる文脈やテキストによって、少しだけニュアンスが使い分けられることがあります。
1. 記号の使い分け
一般的に、以下のようなルールで使い分けられることが多いです。
| 項目 | 標本の共分散 (\(S_{xy}\)) | 母集団の共分散 (\(\sigma_{xy}\)) | 確率変数の共分散 (\(\text{Cov}(X, Y)\)) |
| 対象 | 手元にある実際のデータ | 調査対象の全体(理論値) | まだ値が決まっていない「変数」 |
| 目的 | データの傾向を計算する | 真の値を表す | 数式や理論を組み立てる |
| 計算式の特徴 | データ個数 n (または n-1) で割る | 全体の数 N で割る | 期待値 \(E[ \cdot ]\) を使う |
2. \(S_{xy}\) と書くときの注意点
統計学の教科書によっては、\(S_{xy}\) が指すものが「共分散」ではなく、「偏差積和」(割る前の合計値)を指している場合があります。
- 共分散の場合(平均をとる):
$$S_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$
- 偏差積和の場合(合計のみ):
$$S_{xy} = \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$
[!TIP]テストやレポートで \(S_{xy}\) を使う際は、その資料の中で「\(S_{xy}\) は共分散とする」のか「偏差積和とする」のか、定義を確認しておくと安心です。
まとめ
| 指標 | 記号 | 特徴 |
| 共分散 | \(S_{xy}\) \(\sigma_{xy}\) \(\text{Cov}(X, Y)\) | 関係の「向き(プラスかマイナスか)」はわかるが、大きさ(強さ)がわかりにくい。 |
| 相関係数 | \(r\) | \(-1\) から \(+1\) で表される。単位に関係なく「関係の強さ」を比較できる。 |