Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

똑바른 날개

[확률과 통계 21] Correlation Coefficient of two RVs 본문

공부/확률과 통계

[확률과 통계 21] Correlation Coefficient of two RVs

Upright_wing 2026. 1. 15. 10:28

01) Correlation Coefficient

00_서론

공분산 ${\mathrm{Cov}(X,Y)}$는 two random variables의 선형적 동반 변동을 측정하지만 값의 크기가 단위와 scale에 직접 의존한다는 한계를 가진다.

이 문제를 해결하기 위해 공분산을 표준편차로 정규화한 상관계수 ${\rho_{XY}}$를 정의하며 이는 항상 -1$과 1 사이에 존재하므로 서로 다른 변수 쌍의 선형 관계를 비교 가능한 형태로 제공한다.

01_상관계수의 정의

$$
\begin{aligned}
\rho_{XY}
= \frac{E\!\left[(X - \mu_X)(Y - \mu_Y)\right]}{\sigma_X \sigma_Y}
&= \frac{E[XY] - \mu_X \mu_Y}{\sigma_X \sigma_Y} \\
\sigma_X=\sqrt{\mathrm{Var}(X)}, \quad \sigma_Y=\sqrt{\mathrm{Var}(Y)}
\end{aligned}
$$

이 식에서 분자 ${\mathrm{Cov}(X,Y)}$는 함께 방향성을 나타내고 분모 ${\sigma_X\sigma_Y}$는 각 변수의 변동성 크기를 제거하여 unitless한 비율로 만든다.

따라서 ${\rho_{XY}}$는 단위가 제거된 순수한 선형 관계의 측정치이며 공분산이 갖던 scale-dependency를 정규화 과정으로 제거한다.

표준화 관점의 재해석

$$
Z_X=\frac{X-\mu_X}{\sigma_X},\quad Z_Y=\frac{Y-\mu_Y}{\sigma_Y}
$$

${Z_X}$와 ${Z_Y}$는 각각 ${\mathbb{E}[Z_X]=0}$, ${\mathrm{Var}(Z_X)=1}$을 만족하는 standardized random variable이다.

상관계수는 standardized variables의 공분산과 동일하게 해석된다.

$$
\rho_{XY}=\mathbb{E}[Z_X Z_Y]
$$

→ 상관계수는 두 변수를 평균 0, 분산 1로 맞춘 뒤 그 둘이 함께 움직이는 정도를 측정한 값이다.

02_상관계수의 해석

부호의 의미

${\rho_{XY}>0}$ → ${X}$가 커질수록 ${Y}$도 커지는 경향이 있다.
${\rho_{XY}<0}$ → ${X}$가 커질수록 ${Y}$는 작아지는 경향이 있다.
${\rho_{XY}=0}$ → 선형 관계 관점에서 uncorrelated이다.

→ 부호는 관계의 방향성만을 제공하며 인과관계를 의미하지 않는다.

크기의 의미

${|\rho_{XY}|\to 1}$ → 데이터가 거의 직선에 가깝게 분포하는 strong linear relationship을 가진다.
${|\rho_{XY}|\to 0}$ → linear relationship이 약하거나 거의 없다.

→ ${\rho_{XY}=0}$은 linear dependence가 없음을 의미하지만 independence를 의미하지는 않는다.

기하학적 해석

2D scatter plot에서 ${\rho_{XY}}$는 점 구름이 어느 방향으로 길게 늘어지는지를 설명한다.

${\rho_{XY}=1}$ → 양의 기울기 직선 위에 완전히 정렬된다.
${\rho_{XY}=-1}$ → 음의 기울기 직선 위에 완전히 정렬된다.
${\rho_{XY}\approx 0}$ → 특정 방향성이 약해 원형에 가까운 구름으로 보이는 경향이 있다.

03_예제

양의 상관관계의 예시 ${\rho_{XY}>0}$

인과 관계
신장-체중
비만 지수 콜레스테롤 지수

음의 상관계수의 예시 ${\rho_{XY}<0}$

인과관계, 반작용
주당 평균운동시간 - 콜레스테롤 수치

사진에서의 RGB와 Y의 상관관계

이미지 센서에서 밝기 신호 ${Y}$는 ${R,G,B}$조합으로 생성되며, 시각적으로 중요한 목표는 ${Y}$를 잘 보존하는 것이다.

이때 각 채널과 ${Y}$ 사이의 상관계수 ${\rho(Y,R)}$, ${\rho(Y,G)}$, ${\rho(Y,B)}$를 측정하면 어떤 채널이 밝기 복원에 더 유효한지를 scale에 무관하게 비교할 수 있다.

${\rho(Y,G)}$가 상대적으로 크면 ${G}$가 밝기 정보와 가장 강한 선형 관계를 가진다.
${\rho(Y,R)}$, ${\rho(Y,B)}$가 상대적으로 작으면 같은 샘플 수를 배정했을 때 ${Y}$ 복원 기여가 작아질 수 있다.

→ 이러한 해석은 제한된 센서 자원에서 ${Y}$에 더 큰 기여를 하는 채널을 더 촘촘히 샘플링하는 설계 전략으로 이어질 수 있다.

04_핵심 성질

1. 선형 관계에서의 값

두 변수가 ${Y=aX+b}$, ${a\ne0}$를 만족하면 다음이 성립한다.

$$
\rho_{XY}=\frac{a}{|a|}
$$

${\mu_Y=\mathbb{E}[aX+b]=a\mu_X+b}$
$\begin{aligned}
\sigma_Y^2= E!\left[(Y - E[Y])^2\right] = E!\left[a^2 (X - E[X])^2\right] = a^2 \sigma_X^2
\end{aligned}$이므로 ${\sigma_Y=|a|\sigma_X}$
$\sigma_{XY} = a^2 \sigma_X^2$
$$
\begin{aligned}\sigma_{XY}&= E[XY] - E[X]\,(aE[X] + b) \\&= E[aX^2 + bX] - aE[X]^2 - bE[X] \\&= aE[X^2] + bE[X] - aE[X]^2 - bE[X] \\
&=a^2\bigl(\sigma_X^2 + E[X]^2\bigr) - a^2 E[X]^2 \\
&= a^2 \sigma_X^2
\end{aligned}
$$
$\rho_{XY}= \begin{cases} +1, & a > 0, \\ -1, & a < 0 \end{cases}$
$$
\begin{aligned}{\rho_{XY}=\frac{a\sigma_X^2}{\sigma_X\cdot |a|\sigma_X}=\frac{a}{|a|}=} \begin{cases}
+1, & a > 0, \\
-1, & a < 0
\end{cases}
\end{aligned}
$$

2. Normalization

$$
1\le \rho_{XY}\le 1
$$

이 범위는 Cauchy-Schwarz inequality로부터 도출된다.

$\sigma_{XY}$을 적분형태의 $\langle f,g\rangle$ 내적표현으로 바꾼다.

$$
\begin{aligned}\sigma_{XY}&= \iint (x - m_X)(y - m_Y)\, f_{XY}(x, y)\, dx\, dy \\[6pt]&= \iint (x - m_X)\sqrt{f_{XY}(x, y)} \; (y - m_Y)\sqrt{f_{XY}(x, y)} \, dx\, dy \\[6pt]&= \iint f \cdot g \, dx\, dy\end{aligned}
$$

이를 제곱하여 Cauchy-Schwarz inequality를 사용한다.

$$
\begin{aligned}\left(\iint (x - m_X)\sqrt{f_{XY}(x,y)} \; (y - m_Y)\sqrt{f_{XY}(x,y)} \, dx\, dy\right)^2&\le\left(\iint (x - m_X)^2 f_{XY}(x,y)\, dx\, dy\right)\left(\iint (y - m_Y)^2 f_{XY}(x,y)\, dx\, dy\right)
\\
\sigma_{XY}^2&\le\sigma_{X}^2\sigma_{Y}^2
\end{aligned}
$$

양변을 ${\sigma_X^2\sigma_Y^2}$로 나누면 다음을 얻는다.

$$
\begin{aligned}\rho_{XY}^2&= \frac{\sigma_{XY}^2}{\sigma_X^2 \sigma_Y^2}\le 1\end{aligned}
$$

→ 정규화가 선형 관계의 크기를 강제로 표준 범위에 넣는 핵심 메커니즘이다.

05_활용 시 주의점

상관계수는 numeric scale이 의미를 가지는 변수에서 해석이 가장 명확하다.
임의의 label을 숫자로 코딩한 명목형 변수는 값의 차이가 의미를 갖지 않으므로 상관계수 해석이 제한될 수 있다.
${|\rho_{XY}|}$가 크면 한 변수로 다른 변수를 linear model로 예측할 때 유리할 수 있으며 이는 linear regression의 기본 가정과 연결된다.
그러나 ${|\rho_{XY}|}$가 작아도 non-linear dependence가 존재할 수 있으므로 scatter plot 확인이나 비선형 모델 검토가 필요하다.

06_결론

상관계수는 공분산을 표준편차로 정규화하여 만든 값이며 -1부터 1 사이의 범위에서 two random variables의 선형 관계 방향과 강도를 비교 가능하게 요약한다.

'공부 > 확률과 통계' 카테고리의 다른 글

[확률과 통계 22] Multivariate Gaussian Distribution (0)	2026.01.15
[확률과 통계 20] Covariance of two RVs (0)	2026.01.15
[확률과 통계 16] Discrete Multiple RVs - Introduction (0)	2026.01.13
[확률과 통계 19] Continuous Multiple RVs - Conditional Distributions (1)	2026.01.09
[확률과 통계 17] Continuous Multiple RVs - Introduction (0)	2026.01.09

'공부/확률과 통계' Related Articles