2変数の共分散・相関

前回の「和の分散」で、「2人の関係性(独立かどうか)」によって計算結果が変わるという話をしました。

その「関係性」を数値化する道具が、共分散(きょうぶんさん)と相関(そうかん)です。


1. 共分散(Covariance, \(S_{xy}\))

共分散とは、一言で言うと「2種類のデータが、どれくらい連動して動いているか」を表す数値です。

世の中のデータには、単独では存在せず、ペアで意味を持つものがたくさんあります(身長と体重、気温とビールの売上など)。この2つのデータのペアを見た時、以下の3つのパターンのどれに当てはまるかを確認するのが共分散です。

  1. 同じ方向に動く(正の関係):
    片方のデータが「平均より大きい」とき、もう片方も「平均より大きい」。
    (例:身長が高い人は、体重も重い傾向がある)\(\rightarrow\) このとき、共分散は「プラス」になります。
  2. 逆の方向に動く(負の関係):
    片方のデータが「平均より大きい」とき、もう片方は「平均より小さい」。
    (例:遊ぶ時間が増えると、テストの点数は下がる傾向がある)\(\rightarrow\) このとき、共分散は「マイナス」になります。
  3. バラバラに動く(無関係):
    片方の大小に関わらず、もう片方は好き勝手な値をとる。
    (例:足の速さと、テストの点数)\(\rightarrow\) このとき、共分散は「ゼロ」に近くなります。

つまり、共分散とは「2つのデータの『結びつきの強さと向き』を表すバロメーター」なのです。

共分散の求め方~「ズレ」×「ズレ」の平均

では、これをどのように計算するのか、数式で見てみましょう。2つの変数 \(X\)と \(Y\) があるとします。それぞれの平均(期待値)を \(E[X]\)、\(E[Y]\) とします。

共分散 \(\text{Cov}(X, Y)\) の定義式は以下の通りです。

$$\text{Cov}(X, Y) = E\big[ (X – E[X]) \times (Y – E[Y]) \big]$$

ちょっと難しく見えますが、中身はシンプルです。

  1. 偏差(へんさ)をとる
    それぞれのデータが、平均からどれくらい離れているか(ズレ)を計算します。
    \((X – E[X])\) と \((Y – E[Y])\)
  2. 掛け合わせる
    2つのズレを掛け算します。ここがポイントです!
    プラス同士(両方平均より上) \(\rightarrow\) プラスになる。
    マイナス同士(両方平均より下) \(\rightarrow\) プラスになる。
    プラスとマイナス(片方は上、片方は下) \(\rightarrow\) マイナスになる
  3. 平均する(期待値 \(E\))
    全データの掛け算の結果を平均します。

【結果の解釈】

  • プラスの結果(同じ方向へのズレ)が多ければ、合計もプラス(正の相関)
  • マイナスの結果(逆方向へのズレ)が多ければ、合計はマイナス(負の相関)
  • プラスとマイナスが半々で打ち消し合えば、合計はゼロ(無相関)

野球の事例で共分散を

共分散は、「2つのデータが、平均から見て『同じ方向』に動いているか?」を計算する指標です。

計算の仕組み:プラス×プラス=プラス

2つの変数、打率(\(X\))と年俸(\(Y\))で考えてみましょう。

  1. A選手(スター): 打率が高い(+)、年俸も高い(+)
    • 掛け算すると: \((+) \times (+) = \mathbf{\text{プラス}}\)
  2. B選手(新人): 打率が低い(-)、年俸も低い(-)
    • 掛け算すると: \((-) \times (-) = \mathbf{\text{プラス}}\)
  3. C選手(コスパ悪い): 打率が低い(-)、年俸は高い(+)
    • 掛け算すると: \((-) \times (+) = \mathbf{\text{マイナス}}\)

これら全選手のデータを平均したのが共分散です。

  • 共分散がプラス: 「打率が高いほど年俸も高い」傾向がある(正の相関)。
  • 共分散がマイナス: 「打率が高いほど年俸は低い」傾向がある(負の相関)。
  • 共分散がゼロに近い: お互い関係がない(無相関)。
共分散の弱点:単位が意味不明

共分散には致命的な弱点があります。それは「値の大きさが単位に依存する」ことです。

「打率(%)」と「年俸(円)」の共分散を計算すると、単位が「%・円」という謎のものになり、数字が数億になったりして、「結局それって関係が強いの?弱いの?」が直感的にわかりません。


2. 相関係数(Correlation Coefficient, \(r\))

前回の「共分散」にあった「単位によって数字の大きさが変わってしまう」という弱点を克服し、あらゆるデータを「-1から+1」の範囲で比較できるようにした最強の指標です。

~単位を消して、-1から+1に規格化する~

共分散には、大きな問題点がありました。それは「扱うデータの単位(スケール)によって、計算結果の桁が変わってしまう」ことです。

  • 「身長(cm)」と「体重(kg)」の共分散は、数字が大きくなりがちです(例:300)。
  • 「視力(0.1単位)」と「聴力(dB)」の共分散は、数字が小さくなりがちです(例:0.5)。

このままでは、「300の身長・体重ペアの方が、0.5の視力・聴力ペアよりも関係が強い」と勘違いしてしまいます。実際は単に「cm」という単位の数字が大きいだけかもしれないのに。

そこで、「単位の影響をキャンセル(無効化)」する操作を行います。

それぞれのデータの「バラつきの大きさ(標準偏差)」で割り算をしてあげるのです。

こうして作られた相関係数は、どんなデータであっても必ず以下のルールに従います。

  • 最大値は +1: 完全に同じ動きをする(完全な正の相関)。
  • 最小値は -1: 完全に逆の動きをする(完全な負の相関)。
  • 0 に近い: 全く関係がない(無相関)。

つまり、相関係数とは「単位という衣(ころも)を剥ぎ取って、裸の関係性(-1~+1)だけにした数値」なのです。これなら、身長・体重ペアと視力・聴力ペアの「関係の強さ」を公平に比較できます。

相関係数の求め方~共分散を、標準偏差で割る~

相関係数は、通常 \(r\) (アール)あるいは \(\rho\) (ロー)という記号で表されます。

データ \(X\) と \(Y\) の相関係数 \(r\) の定義式は以下の通りです。

$$r = \frac{\text{Cov}(X, Y)}{\sigma_X \times \sigma_Y}$$

  • \(\text{Cov}(X, Y)\): \(X\) と \(Y\) の共分散
  • \(\sigma_X\): \(X\) の標準偏差
  • \(\sigma_Y\): \(Y\) の標準偏差

なぜこれで単位が消えるのか?

単位(次元)だけで計算を見てみましょう。例として \(X\) を身長(cm)、\(Y\) を体重(kg)とします。

  1. 分子(共分散)の単位:
    「ズレ(cm) \(\times\) ズレ(kg)」なので、単位は 「cm \(\cdot\) kg」 です。
  2. 分母(標準偏差 \(\times\) 標準偏差)の単位:
    \(X\) の標準偏差は「cm」、\(Y\) の標準偏差は「kg」です。掛けると単位は 「cm \(\cdot\) kg」 になります。
  3. 割り算:
    $$\frac{\text{cm} \cdot \text{kg}}{\text{cm} \cdot \text{kg}} = \text{単位なし}$$
    このように、分母と分子で単位がきれいに相殺されるため、純粋な「数値」だけが残るのです。

3. 野球で見る「3つの相関」

相関係数 \(r\) の値によって、2つの変数の関係は以下のように分類されます。これを散布図(さんぷず)というグラフで見ると一目瞭然です。

① 正の相関(\(r\) が \(+1\) に近い)

「片方が増えれば、もう片方も増える」

  • 例: 「出塁率」と「得点数」
  • 解説: ランナーによく出るチームほど、得点が多くなるのは当然です。
  • グラフ: 右上がりの形になります。

② 負の相関(\(r\) が \(-1\) に近い)

「片方が増えれば、もう片方は減る」

  • 例: 「チーム防御率」と「勝率」
  • 解説: 防御率の数字が増える(点を取られる)ほど、勝率は減ります。一方が良くなると、もう一方は数字上悪くなる関係です。
  • グラフ: 右下がりの形になります。

③ 無相関(\(r\) が \(0\) に近い)

「お互い全く関係がない」

  • 例: 「選手の背番号」と「ホームラン数」
  • 解説: 背番号が大きいからといって、ホームランをたくさん打つわけではありません。
  • グラフ: 全体にぼんやりと広がった形(円形)になります。

4. 注意点:相関 \(\neq\) 因果

~「ビールが売れると巨人が勝つ」の謎~

統計を使う上で一番気をつけなければならないのが、「相関関係(一緒に動いている)」と「因果関係(原因と結果)」は違うということです。

例:ある球場で調査したところ、「ビールの売上数」と「チームの得点」に強い正の相関がありました。

  • 間違った推論(因果): 「観客がビールを飲めば飲むほど、応援が熱くなって得点が入るんだ! もっとビールを売ろう!」
  • 真相(擬似相関): 実は、単に「気温が高い日」だっただけ。
    • 気温が高い \(\rightarrow\) ビールが売れる。
    • 気温が高い \(\rightarrow\) 空気が乾燥してボールが飛びやすくなり、得点が入る(または投手がバテる)。

このように、隠れた第3の要因(気温)がある場合、見かけ上の相関に騙されてはいけません。これを擬似相関(ぎじそうかん)と呼びます。

\(S_{xy}\)と\(\text{Cov}(X, Y)\)の違い

共分散を表す記号は\(S_{xy}\)\(\text{Cov}(X, Y)\)どちらも正解です。 ただし、使われる文脈やテキストによって、少しだけニュアンスが使い分けられることがあります。

1. 記号の使い分け

一般的に、以下のようなルールで使い分けられることが多いです。

項目標本の共分散 (\(S_{xy}\)​)母集団の共分散 (\(\sigma_{xy}\))確率変数の共分散 (\(\text{Cov}(X, Y)\))
対象手元にある実際のデータ調査対象の全体(理論値)まだ値が決まっていない「変数」
目的データの傾向を計算する真の値を表す数式や理論を組み立てる
計算式の特徴データ個数 n (または n-1) で割る全体の数 N で割る期待値 \(E[ \cdot ]\) を使う

2. \(S_{xy}\) と書くときの注意点

統計学の教科書によっては、\(S_{xy}\) が指すものが「共分散」ではなく、「偏差積和」(割る前の合計値)を指している場合があります。

  • 共分散の場合(平均をとる):

$$S_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$

  • 偏差積和の場合(合計のみ):

$$S_{xy} = \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$

[!TIP]テストやレポートで \(S_{xy}\) を使う際は、その資料の中で「\(S_{xy}\) は共分散とする」のか「偏差積和とする」のか、定義を確認しておくと安心です。


まとめ

指標記号特徴
共分散\(S_{xy}\)
\(\sigma_{xy}\)
\(\text{Cov}(X, Y)\)
関係の「向き(プラスかマイナスか)」はわかるが、大きさ(強さ)がわかりにくい。
相関係数\(r\)\(-1\) から \(+1\) で表される。単位に関係なく「関係の強さ」を比較できる。