2変数の共分散・相関

前回の「和の分散」で、「2人の関係性（独立かどうか）」によって計算結果が変わるという話をしました。

その「関係性」を数値化する道具が、共分散（きょうぶんさん）と相関（そうかん）です。

1. 共分散（Covariance, $S_{xy}$）

共分散とは、一言で言うと「2種類のデータが、どれくらい連動して動いているか」を表す数値です。

世の中のデータには、単独では存在せず、ペアで意味を持つものがたくさんあります（身長と体重、気温とビールの売上など）。この2つのデータのペアを見た時、以下の3つのパターンのどれに当てはまるかを確認するのが共分散です。

同じ方向に動く（正の関係）：
片方のデータが「平均より大きい」とき、もう片方も「平均より大きい」。
（例：身長が高い人は、体重も重い傾向がある）$\rightarrow$ このとき、共分散は「プラス」になります。
逆の方向に動く（負の関係）：
片方のデータが「平均より大きい」とき、もう片方は「平均より小さい」。
（例：遊ぶ時間が増えると、テストの点数は下がる傾向がある）$\rightarrow$ このとき、共分散は「マイナス」になります。
バラバラに動く（無関係）：
片方の大小に関わらず、もう片方は好き勝手な値をとる。
（例：足の速さと、テストの点数）$\rightarrow$ このとき、共分散は「ゼロ」に近くなります。

つまり、共分散とは「2つのデータの『結びつきの強さと向き』を表すバロメーター」なのです。

共分散の求め方～「ズレ」×「ズレ」の平均～

では、これをどのように計算するのか、数式で見てみましょう。2つの変数 $X$と $Y$ があるとします。それぞれの平均（期待値）を $E[X]$、$E[Y]$ とします。

共分散 $\text{Cov}(X, Y)$ の定義式は以下の通りです。

$$\text{Cov}(X, Y) = E\big[ (X – E[X]) \times (Y – E[Y]) \big]$$

ちょっと難しく見えますが、中身はシンプルです。

偏差（へんさ）をとる
それぞれのデータが、平均からどれくらい離れているか（ズレ）を計算します。
$(X – E[X])$ と $(Y – E[Y])$
掛け合わせる
2つのズレを掛け算します。ここがポイントです！
プラス同士（両方平均より上） $\rightarrow$ プラスになる。
マイナス同士（両方平均より下） $\rightarrow$ プラスになる。
プラスとマイナス（片方は上、片方は下） $\rightarrow$ マイナスになる。
平均する（期待値 $E$）
全データの掛け算の結果を平均します。

【結果の解釈】

プラスの結果（同じ方向へのズレ）が多ければ、合計もプラス（正の相関）。
マイナスの結果（逆方向へのズレ）が多ければ、合計はマイナス（負の相関）。
プラスとマイナスが半々で打ち消し合えば、合計はゼロ（無相関）。

野球の事例で共分散を

共分散は、「2つのデータが、平均から見て『同じ方向』に動いているか？」を計算する指標です。

計算の仕組み：プラス×プラス＝プラス

2つの変数、打率（$X$）と年俸（$Y$）で考えてみましょう。

A選手（スター）： 打率が高い（＋）、年俸も高い（＋）
- 掛け算すると： $(+) \times (+) = \mathbf{\text{プラス}}$
B選手（新人）： 打率が低い（－）、年俸も低い（－）
- 掛け算すると： $(-) \times (-) = \mathbf{\text{プラス}}$
C選手（コスパ悪い）： 打率が低い（－）、年俸は高い（＋）
- 掛け算すると： $(-) \times (+) = \mathbf{\text{マイナス}}$

これら全選手のデータを平均したのが共分散です。

共分散がプラス： 「打率が高いほど年俸も高い」傾向がある（正の相関）。
共分散がマイナス： 「打率が高いほど年俸は低い」傾向がある（負の相関）。
共分散がゼロに近い： お互い関係がない（無相関）。

共分散の弱点：単位が意味不明

共分散には致命的な弱点があります。それは「値の大きさが単位に依存する」ことです。

「打率（％）」と「年俸（円）」の共分散を計算すると、単位が「％・円」という謎のものになり、数字が数億になったりして、「結局それって関係が強いの？弱いの？」が直感的にわかりません。

2. 相関係数（Correlation Coefficient, $r$）

前回の「共分散」にあった「単位によって数字の大きさが変わってしまう」という弱点を克服し、あらゆるデータを「-1から+1」の範囲で比較できるようにした最強の指標です。

～単位を消して、-1から+1に規格化する～

共分散には、大きな問題点がありました。それは「扱うデータの単位（スケール）によって、計算結果の桁が変わってしまう」ことです。

「身長(cm)」と「体重(kg)」の共分散は、数字が大きくなりがちです（例：300）。
「視力(0.1単位)」と「聴力(dB)」の共分散は、数字が小さくなりがちです（例：0.5）。

このままでは、「300の身長・体重ペアの方が、0.5の視力・聴力ペアよりも関係が強い」と勘違いしてしまいます。実際は単に「cm」という単位の数字が大きいだけかもしれないのに。

そこで、「単位の影響をキャンセル（無効化）」する操作を行います。

それぞれのデータの「バラつきの大きさ（標準偏差）」で割り算をしてあげるのです。

こうして作られた相関係数は、どんなデータであっても必ず以下のルールに従います。

最大値は +1： 完全に同じ動きをする（完全な正の相関）。
最小値は -1： 完全に逆の動きをする（完全な負の相関）。
0 に近い： 全く関係がない（無相関）。

つまり、相関係数とは「単位という衣（ころも）を剥ぎ取って、裸の関係性（-1～+1）だけにした数値」なのです。これなら、身長・体重ペアと視力・聴力ペアの「関係の強さ」を公平に比較できます。

相関係数の求め方～共分散を、標準偏差で割る～

相関係数は、通常 $r$ （アール）あるいは $\rho$ （ロー）という記号で表されます。

データ $X$ と $Y$ の相関係数 $r$ の定義式は以下の通りです。

$$r = \frac{\text{Cov}(X, Y)}{\sigma_X \times \sigma_Y}$$

$\text{Cov}(X, Y)$： $X$ と $Y$ の共分散
$\sigma_X$： $X$ の標準偏差
$\sigma_Y$： $Y$ の標準偏差

なぜこれで単位が消えるのか？

単位（次元）だけで計算を見てみましょう。例として $X$ を身長（cm）、$Y$ を体重（kg）とします。

分子（共分散）の単位：
「ズレ(cm) $\times$ ズレ(kg)」なので、単位は「cm $\cdot$ kg」です。
分母（標準偏差 $\times$ 標準偏差）の単位：
$X$ の標準偏差は「cm」、$Y$ の標準偏差は「kg」です。掛けると単位は「cm $\cdot$ kg」になります。
割り算：
$$\frac{\text{cm} \cdot \text{kg}}{\text{cm} \cdot \text{kg}} = \text{単位なし}$$
このように、分母と分子で単位がきれいに相殺されるため、純粋な「数値」だけが残るのです。

3. 野球で見る「3つの相関」

相関係数 $r$ の値によって、2つの変数の関係は以下のように分類されます。これを散布図（さんぷず）というグラフで見ると一目瞭然です。

① 正の相関（$r$ が $+1$ に近い）

「片方が増えれば、もう片方も増える」

例：「出塁率」と「得点数」
解説： ランナーによく出るチームほど、得点が多くなるのは当然です。
グラフ： 右上がりの形になります。

② 負の相関（$r$ が $-1$ に近い）

「片方が増えれば、もう片方は減る」

例：「チーム防御率」と「勝率」
解説： 防御率の数字が増える（点を取られる）ほど、勝率は減ります。一方が良くなると、もう一方は数字上悪くなる関係です。
グラフ： 右下がりの形になります。

③ 無相関（$r$ が $0$ に近い）

「お互い全く関係がない」

例：「選手の背番号」と「ホームラン数」
解説： 背番号が大きいからといって、ホームランをたくさん打つわけではありません。
グラフ： 全体にぼんやりと広がった形（円形）になります。

4. 注意点：相関 $\neq$ 因果

～「ビールが売れると巨人が勝つ」の謎～

統計を使う上で一番気をつけなければならないのが、「相関関係（一緒に動いている）」と「因果関係（原因と結果）」は違うということです。

例：ある球場で調査したところ、「ビールの売上数」と「チームの得点」に強い正の相関がありました。

間違った推論（因果）： 「観客がビールを飲めば飲むほど、応援が熱くなって得点が入るんだ！もっとビールを売ろう！」
真相（擬似相関）： 実は、単に「気温が高い日」だっただけ。
- 気温が高い $\rightarrow$ ビールが売れる。
- 気温が高い $\rightarrow$ 空気が乾燥してボールが飛びやすくなり、得点が入る（または投手がバテる）。

このように、隠れた第3の要因（気温）がある場合、見かけ上の相関に騙されてはいけません。これを擬似相関（ぎじそうかん）と呼びます。

$S_{xy}$と$\text{Cov}(X, Y)$の違い

共分散を表す記号は$S_{xy}$と$\text{Cov}(X, Y)$どちらも正解です。ただし、使われる文脈やテキストによって、少しだけニュアンスが使い分けられることがあります。

1. 記号の使い分け

一般的に、以下のようなルールで使い分けられることが多いです。

項目	標本の共分散 ($S_{xy}$)	母集団の共分散 ($\sigma_{xy}$)	確率変数の共分散 ($\text{Cov}(X, Y)$)
対象	手元にある実際のデータ	調査対象の全体（理論値）	まだ値が決まっていない「変数」
目的	データの傾向を計算する	真の値を表す	数式や理論を組み立てる
計算式の特徴	データ個数 n (または n-1) で割る	全体の数 N で割る	期待値 $E[ \cdot ]$ を使う

2. $S_{xy}$ と書くときの注意点

統計学の教科書によっては、$S_{xy}$ が指すものが「共分散」ではなく、「偏差積和」（割る前の合計値）を指している場合があります。

共分散の場合（平均をとる）:

$$S_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$

偏差積和の場合（合計のみ）:

$$S_{xy} = \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$

[!TIP]テストやレポートで $S_{xy}$ を使う際は、その資料の中で「$S_{xy}$ は共分散とする」のか「偏差積和とする」のか、定義を確認しておくと安心です。

まとめ

指標	記号	特徴
共分散	$S_{xy}$ $\sigma_{xy}$ $\text{Cov}(X, Y)$	関係の「向き（プラスかマイナスか）」はわかるが、大きさ（強さ）がわかりにくい。
相関係数	$r$	$-1$ から $+1$ で表される。単位に関係なく「関係の強さ」を比較できる。

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2変数の共分散・相関

1. 共分散（Covariance, \(S_{xy}\)）

共分散の求め方～「ズレ」×「ズレ」の平均～

野球の事例で共分散を

共分散の弱点：単位が意味不明

2. 相関係数（Correlation Coefficient, \(r\)）

～単位を消して、-1から+1に規格化する～

相関係数の求め方～共分散を、標準偏差で割る～

なぜこれで単位が消えるのか？

3. 野球で見る「3つの相関」

① 正の相関（\(r\) が \(+1\) に近い）

② 負の相関（\(r\) が \(-1\) に近い）

③ 無相関（\(r\) が \(0\) に近い）

4. 注意点：相関 \(\neq\) 因果

\(S_{xy}\)と\(\text{Cov}(X, Y)\)の違い

1. 記号の使い分け

2. \(S_{xy}\) と書くときの注意点

まとめ