| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- plotjuggler
- gradient accumulation
- mock
- UV
- corrosion
- Cargo
- ROS
- Topic
- CMAKE
- 워크스페이스
- vscode
- 데이터분석
- gjk
- cbindgen
- roslaunch
- broad-phase
- generic pointer
- subsribe
- unittest
- 비동기적
- rust
- CONSTRAINTS
- gjk-epa
- remapping
- Turtlesim
- C++
- rospy.spin
- separating axis theorem(sat)
- narrow-phase
- convex
- Today
- Total
똑바른 날개
[확률과 통계 21] Correlation Coefficient of two RVs 본문
01) Correlation Coefficient
00_서론
공분산 ${\mathrm{Cov}(X,Y)}$는 two random variables의 선형적 동반 변동을 측정하지만 값의 크기가 단위와 scale에 직접 의존한다는 한계를 가진다.
이 문제를 해결하기 위해 공분산을 표준편차로 정규화한 상관계수 ${\rho_{XY}}$를 정의하며 이는 항상 -1$과 1 사이에 존재하므로 서로 다른 변수 쌍의 선형 관계를 비교 가능한 형태로 제공한다.
01_상관계수의 정의
$$
\begin{aligned}
\rho_{XY}
= \frac{E\!\left[(X - \mu_X)(Y - \mu_Y)\right]}{\sigma_X \sigma_Y}
&= \frac{E[XY] - \mu_X \mu_Y}{\sigma_X \sigma_Y} \\
\sigma_X=\sqrt{\mathrm{Var}(X)}, \quad \sigma_Y=\sqrt{\mathrm{Var}(Y)}
\end{aligned}
$$
이 식에서 분자 ${\mathrm{Cov}(X,Y)}$는 함께 방향성을 나타내고 분모 ${\sigma_X\sigma_Y}$는 각 변수의 변동성 크기를 제거하여 unitless한 비율로 만든다.
따라서 ${\rho_{XY}}$는 단위가 제거된 순수한 선형 관계의 측정치이며 공분산이 갖던 scale-dependency를 정규화 과정으로 제거한다.
표준화 관점의 재해석
$$
Z_X=\frac{X-\mu_X}{\sigma_X},\quad Z_Y=\frac{Y-\mu_Y}{\sigma_Y}
$$
${Z_X}$와 ${Z_Y}$는 각각 ${\mathbb{E}[Z_X]=0}$, ${\mathrm{Var}(Z_X)=1}$을 만족하는 standardized random variable이다.
상관계수는 standardized variables의 공분산과 동일하게 해석된다.
$$
\rho_{XY}=\mathbb{E}[Z_X Z_Y]
$$
→ 상관계수는 두 변수를 평균 0, 분산 1로 맞춘 뒤 그 둘이 함께 움직이는 정도를 측정한 값이다.
02_상관계수의 해석
부호의 의미
- ${\rho_{XY}>0}$ → ${X}$가 커질수록 ${Y}$도 커지는 경향이 있다.
- ${\rho_{XY}<0}$ → ${X}$가 커질수록 ${Y}$는 작아지는 경향이 있다.
- ${\rho_{XY}=0}$ → 선형 관계 관점에서 uncorrelated이다.
→ 부호는 관계의 방향성만을 제공하며 인과관계를 의미하지 않는다.
크기의 의미
- ${|\rho_{XY}|\to 1}$ → 데이터가 거의 직선에 가깝게 분포하는 strong linear relationship을 가진다.
- ${|\rho_{XY}|\to 0}$ → linear relationship이 약하거나 거의 없다.
→ ${\rho_{XY}=0}$은 linear dependence가 없음을 의미하지만 independence를 의미하지는 않는다.
기하학적 해석
2D scatter plot에서 ${\rho_{XY}}$는 점 구름이 어느 방향으로 길게 늘어지는지를 설명한다.
- ${\rho_{XY}=1}$ → 양의 기울기 직선 위에 완전히 정렬된다.
- ${\rho_{XY}=-1}$ → 음의 기울기 직선 위에 완전히 정렬된다.
- ${\rho_{XY}\approx 0}$ → 특정 방향성이 약해 원형에 가까운 구름으로 보이는 경향이 있다.


03_예제
양의 상관관계의 예시 ${\rho_{XY}>0}$
- 인과 관계
- 신장-체중
- 비만 지수 콜레스테롤 지수
음의 상관계수의 예시 ${\rho_{XY}<0}$
- 인과관계, 반작용
- 주당 평균운동시간 - 콜레스테롤 수치
사진에서의 RGB와 Y의 상관관계

이미지 센서에서 밝기 신호 ${Y}$는 ${R,G,B}$조합으로 생성되며, 시각적으로 중요한 목표는 ${Y}$를 잘 보존하는 것이다.
이때 각 채널과 ${Y}$ 사이의 상관계수 ${\rho(Y,R)}$, ${\rho(Y,G)}$, ${\rho(Y,B)}$를 측정하면 어떤 채널이 밝기 복원에 더 유효한지를 scale에 무관하게 비교할 수 있다.
- ${\rho(Y,G)}$가 상대적으로 크면 ${G}$가 밝기 정보와 가장 강한 선형 관계를 가진다.
- ${\rho(Y,R)}$, ${\rho(Y,B)}$가 상대적으로 작으면 같은 샘플 수를 배정했을 때 ${Y}$ 복원 기여가 작아질 수 있다.
→ 이러한 해석은 제한된 센서 자원에서 ${Y}$에 더 큰 기여를 하는 채널을 더 촘촘히 샘플링하는 설계 전략으로 이어질 수 있다.
04_핵심 성질
1. 선형 관계에서의 값
두 변수가 ${Y=aX+b}$, ${a\ne0}$를 만족하면 다음이 성립한다.
$$
\rho_{XY}=\frac{a}{|a|}
$$
- ${\mu_Y=\mathbb{E}[aX+b]=a\mu_X+b}$
- $\begin{aligned}
\sigma_Y^2= E!\left[(Y - E[Y])^2\right] = E!\left[a^2 (X - E[X])^2\right] = a^2 \sigma_X^2
\end{aligned}$이므로 ${\sigma_Y=|a|\sigma_X}$ - $\sigma_{XY} = a^2 \sigma_X^2$
$$
\begin{aligned}\sigma_{XY}&= E[XY] - E[X]\,(aE[X] + b) \\&= E[aX^2 + bX] - aE[X]^2 - bE[X] \\&= aE[X^2] + bE[X] - aE[X]^2 - bE[X] \\
&=a^2\bigl(\sigma_X^2 + E[X]^2\bigr) - a^2 E[X]^2 \\
&= a^2 \sigma_X^2
\end{aligned}
$$ - $\rho_{XY}= \begin{cases} +1, & a > 0, \\ -1, & a < 0 \end{cases}$
$$
\begin{aligned}{\rho_{XY}=\frac{a\sigma_X^2}{\sigma_X\cdot |a|\sigma_X}=\frac{a}{|a|}=} \begin{cases}
+1, & a > 0, \\
-1, & a < 0
\end{cases}
\end{aligned}
$$
2. Normalization
$$
1\le \rho_{XY}\le 1
$$
이 범위는 Cauchy-Schwarz inequality로부터 도출된다.
$\sigma_{XY}$을 적분형태의 $\langle f,g\rangle$ 내적표현으로 바꾼다.
$$
\begin{aligned}\sigma_{XY}&= \iint (x - m_X)(y - m_Y)\, f_{XY}(x, y)\, dx\, dy \\[6pt]&= \iint (x - m_X)\sqrt{f_{XY}(x, y)} \; (y - m_Y)\sqrt{f_{XY}(x, y)} \, dx\, dy \\[6pt]&= \iint f \cdot g \, dx\, dy\end{aligned}
$$
이를 제곱하여 Cauchy-Schwarz inequality를 사용한다.
$$
\begin{aligned}\left(\iint (x - m_X)\sqrt{f_{XY}(x,y)} \; (y - m_Y)\sqrt{f_{XY}(x,y)} \, dx\, dy\right)^2&\le\left(\iint (x - m_X)^2 f_{XY}(x,y)\, dx\, dy\right)\left(\iint (y - m_Y)^2 f_{XY}(x,y)\, dx\, dy\right)
\\
\sigma_{XY}^2&\le\sigma_{X}^2\sigma_{Y}^2
\end{aligned}
$$
양변을 ${\sigma_X^2\sigma_Y^2}$로 나누면 다음을 얻는다.
$$
\begin{aligned}\rho_{XY}^2&= \frac{\sigma_{XY}^2}{\sigma_X^2 \sigma_Y^2}\le 1\end{aligned}
$$
→ 정규화가 선형 관계의 크기를 강제로 표준 범위에 넣는 핵심 메커니즘이다.
05_활용 시 주의점
- 상관계수는 numeric scale이 의미를 가지는 변수에서 해석이 가장 명확하다.
- 임의의 label을 숫자로 코딩한 명목형 변수는 값의 차이가 의미를 갖지 않으므로 상관계수 해석이 제한될 수 있다.
- ${|\rho_{XY}|}$가 크면 한 변수로 다른 변수를 linear model로 예측할 때 유리할 수 있으며 이는 linear regression의 기본 가정과 연결된다.
- 그러나 ${|\rho_{XY}|}$가 작아도 non-linear dependence가 존재할 수 있으므로 scatter plot 확인이나 비선형 모델 검토가 필요하다.
06_결론
상관계수는 공분산을 표준편차로 정규화하여 만든 값이며 -1부터 1 사이의 범위에서 two random variables의 선형 관계 방향과 강도를 비교 가능하게 요약한다.
'공부 > 확률과 통계' 카테고리의 다른 글
| [확률과 통계 22] Multivariate Gaussian Distribution (0) | 2026.01.15 |
|---|---|
| [확률과 통계 20] Covariance of two RVs (0) | 2026.01.15 |
| [확률과 통계 16] Discrete Multiple RVs - Introduction (0) | 2026.01.13 |
| [확률과 통계 19] Continuous Multiple RVs - Conditional Distributions (1) | 2026.01.09 |
| [확률과 통계 17] Continuous Multiple RVs - Introduction (0) | 2026.01.09 |