똑바른 날개

[확률과 통계 24] Transform of RVs (Part 2)- formulation 1 본문

공부/확률과 통계

[확률과 통계 24] Transform of RVs (Part 2)- formulation 1

Upright_wing 2026. 1. 16. 12:57
반응형

01) random variable transformation: 단일 변수 PDF 유도

00_서론

공학 문제에서는 측정된 signal $X$를 직접 쓰기보다 $Y=g(X)$처럼 transform function으로 만든 새로운 random variable의 분포가 필요해지는 경우가 많다.
예를 들어 오차 $X$를 제곱해 에너지에 해당하는 값 $Y=X^2$를 정의하면, 부호 정보는 사라지고 크기 정보만 남으므로 시스템의 안정성 평가나 error 크기 기반 분석에 적합한 형태가 된다.
이 글의 목표는 continuous random variable $X$의 PDF $f_X(x)$가 주어졌을 때 $Y=g(X)$의 PDF $f_Y(y)$를 CDF에서 출발해 체계적으로 유도하는 방법을 정리하는 것이다.

01_문제 설정과 가정

  • $X$는 continuous random variable이며 CDF $F_X(x)$와 PDF $f_X(x)$가 존재한다고 가정한다.
  • $Y=g(X)$로 정의된 random variable의 CDF와 PDF를 각각 $F_Y(y)$, $f_Y(y)$로 둔다.
  • $g$는 필요한 구간에서 미분 가능하며, 단조성 여부에 따라 inverse function의 사용 가능성이 달라진다.
  • $Y$의 support는 $g$가 $X$의 support를 어떻게 매핑하는지로 결정되며, 범위 밖에서는 $f_Y(y)=0$이 된다.

02_CDF 기반 유도 절차

변환된 random variable의 PDF는 CDF에서 시작해 미분으로 얻는 구조를 따른다.

  • 정의는 $F_Y(y)=P(Y\le y)$이며, 여기서 $Y=g(X)$를 대입해 $F_Y(y)=P(g(X)\le y)$로 바꾼다.
  • 부등식 $g(X)\le y$를 만족하는 $X$의 구간을 찾아 $F_X$로 표현한다.
  • 마지막으로 $f_Y(y)=\frac{d}{dy}F_Y(y)$를 적용한다.

계산 흐름은 다음 4단계로 정리된다.

  1. $F_Y(y)=P(Y\le y)$ 정의
  2. $Y=g(X)$를 이용해 $P(g(X)\le y)$로 변환
  3. $g(X)\le y$가 만드는 $X$의 범위를 찾아 $F_X$로 표현
  4. $y$에 대해 미분하여 $f_Y(y)$ 도출

03_monotonically increasing transform function

공식 유도

$g$가 monotone increasing이면 inverse function $g^{-1}$가 정의되고 부등식 방향이 보존된다.

$$
F_Y(y)=P(g(X)\le y)=P(X\le g^{-1}(y))=F_X(g^{-1}(y))
$$

합성함수 미분을 적용하면 다음을 얻는다.

$$
f_Y(y)=\frac{d}{dy}F_X(g^{-1}(y))=f_X(g^{-1}(y))\frac{d}{dy}g^{-1}(y)
$$

inverse function 미분 관계는 다음과 같이 쓸 수 있다.

$$
\frac{d}{dy}g^{-1}(y)=\frac{1}{\frac{d}{dx}g(x)}\Big|*{x=g^{-1}(y)}
$$

따라서 최종적으로 다음 형태가 된다.

$$
f_Y(y)=\frac{f_X(x)}{\left|\frac{d}{dx}g(x)\right|}\Bigg|*{x=g^{-1}(y)}
$$

해석

transform function의 기울기가 크면 같은 확률량이 더 넓은 $y$ 구간으로 퍼지므로 $f_Y(y)$는 작아지고, 기울기가 작으면 좁은 $y$ 구간에 모이므로 $f_Y(y)$는 커진다.

04_monotonically decreasing transform function

공식 유도

$g$가 monotone decreasing이면 inverse function을 적용할 때 부등식 방향이 뒤집힌다.

$$
F_Y(y)=P(g(X)\le y)=P(X\ge g^{-1}(y))=1-F_X(g^{-1}(y))
$$

이를 미분하면 다음이 된다.

$$
f_Y(y)=\frac{d}{dy}\left(1-F_X(g^{-1}(y))\right)=-f_X(g^{-1}(y))\frac{d}{dy}g^{-1}(y)
$$

monotone decreasing에서는 $\frac{d}{dy}g^{-1}(y)<0$이므로 위 식은 양수가 되며, 절댓값을 사용하면 단일 공식으로 정리된다.

$$
f_Y(y)=\frac{f_X(x)}{\left|\frac{d}{dx}g(x)\right|}\Bigg|_{x=g^{-1}(y)}
$$

해석

대응 방향은 반대이지만, 작은 구간에서의 확률 보존과 구간 확장·압축 효과는 동일하게 작동한다.
→ 절댓값은 방향 정보를 버리고 구간 스케일 변화의 크기만 반영한다.

05_non-monotonic transform function

공식 유도

$g$가 non-monotonic이면 같은 $y$에 대해 방정식 $g(x)=y$를 만족하는 해 $x_i$가 여러 개 존재할 수 있으며, 이때 $F_Y(y)=P(Y\le y)=P(g(X)\le y)$는 $x$축에서 여러 구간의 합집합 확률로 분해된다.

대표적인 형태로 $g(x)=y$의 해가 $x_1<x_2<x_3$로 존재하고, 그림과 같이 $g(X)\le y$가 구간 $(-\infty,x_1]$과 $(x_2,x_3]$의 합집합으로 표현되면 다음이 성립한다.

$$
\begin{aligned}
F_Y(y)
&=P(Y\le y)=P(g(X)\le y) \\
&=P(X\le x_1)+P(x_2<X\le x_3) \\
&=F_X(x_1)+\big(F_X(x_3)-F_X(x_2)\big)
\end{aligned}
$$

각 해 $x_i$는 $y$의 함수 $x_i=x_i(y)$로 해석되므로, $y$에 대한 미분에서는 chain rule이 적용된다.

$$
\begin{aligned}
f_Y(y)
&=\frac{d}{dy}F_Y(y) \\
&=\frac{d}{dy}\Big(F_X(x_1)+F_X(x_3)-F_X(x_2)\Big) \\
&=f_X(x_1)\frac{dx_1}{dy}+f_X(x_3)\frac{dx_3}{dy}-f_X(x_2)\frac{dx_2}{dy}
\end{aligned}
$$

이때 $g(x_i)=y$이므로 양변을 $y$로 미분하면 $g'(x_i)\frac{dx_i}{dy}=1$이 되어 다음을 얻는다.

$$
\frac{dx_i}{dy}=\frac{1}{g'(x_i)}
$$

따라서 위 식은 다음과 같이 정리되며, 부호 차이는 절댓값으로 흡수되어 각 해의 기여가 모두 양수로 합산된다.

$$
f_Y(y)=\frac{f_X(x_1)}{|g'(x_1)|}+\frac{f_X(x_2)}{|g'(x_2)|}+\frac{f_X(x_3)}{|g'(x_3)|}
$$

이를 $g(x)=y$의 모든 해 $x_i$에 대해 일반화하면 최종적으로 다음의 일반 공식이 된다.

$$
f_Y(y)=\sum_{x_i:,g(x_i)=y}\frac{f_X(x_i)}{|g'(x_i)|}
$$

06_적용 예제

예제 1: Linear transformation $Y=aX+b$

문제 정의: $Y=aX+b$로 정의될 때 $f_Y(y)$를 구한다.
모델링: $g(x)=ax+b$이며 $a\ne 0$이면 $g$는 monotone이고 해는 항상 하나이다.
수식 전개: $x=g^{-1}(y)=\frac{y-b}{a}$, $\frac{d}{dx}g(x)=a$이므로 일반 공식에 의해 다음을 얻는다.

$$
f_Y(y)=\frac{1}{|a|}f_X\left(\frac{y-b}{a}\right)
$$

결과 해석: $b$는 분포의 위치를 이동시키고 $a$는 축을 스케일하며, $1/|a|$는 전체 확률이 1로 유지되도록 PDF 높이를 보정한다.

예제 2: Square transformation $Y=X^2$

문제 정의: $Y=X^2$로 정의될 때 $f_Y(y)$를 구한다.
모델링: $g(x)=x^2$이며 $Y$의 support는 $y\ge 0$이다.
수식 전개: $y>0$에서 방정식 $x^2=y$의 해는 $x_1=-\sqrt{y}$, $x_2=\sqrt{y}$이고 $\frac{d}{dx}g(x)=2x$이므로 다음을 얻는다.

$$
f_Y(y)=\frac{f_X(-\sqrt{y})}{|2(-\sqrt{y})|}+\frac{f_X(\sqrt{y})}{|2(\sqrt{y})|}=\frac{f_X(-\sqrt{y})+f_X(\sqrt{y})}{2\sqrt{y}},\quad y>0
$$

또한 $y<0$에서는 $f_Y(y)=0$이다.

결과 해석

$y$에서의 확률 밀도는 $x=\sqrt{y}$와 $x=-\sqrt{y}$ 두 지점에서 매핑되어 들어오는 확률 밀도의 합으로 결정되며, $|g'(x)|=|2x|$ 항은 $x$축의 작은 구간 $dx$가 $y$축에서 어떤 길이의 구간 $dy$로 늘어나거나 줄어드는지를 보정하는 스케일 항으로 작동한다.

이 변환은 error와 같이 부호를 갖는 random variable $X$를 크기 기반 quantity로 바꾸는 데 사용되며, $Y=X^2$는 항상 $Y\ge 0$이므로 부호 정보는 제거되고 magnitude 정보만 남는다.

따라서 $X$를 estimation error로 해석하면 $Y$는 error magnitude에 비례하는 energy 형태의 지표로 해석될 수 있으며, 제어 및 신호처리에서는 error의 방향보다 energy 관점의 크기 평가가 더 직접적인 성능 지표가 되는 경우가 많다.

특히 $X$가 Gaussian distribution을 따를 때 $Y=X^2$는 Chi-squared distribution 계열로 연결되며, 이 연결은 hypothesis test나 confidence interval과 같은 통계적 추론에서 에너지 기반 통계량을 구성하는 표준적인 형태로 사용된다.

https://www.youtube.com/watch?v=q60MwJOxNwM

 

반응형