똑바른 날개

[확률과 통계 23] Transform of RVs (Part 1)- Introduction 본문

공부/확률과 통계

[확률과 통계 23] Transform of RVs (Part 1)- Introduction

Upright_wing 2026. 1. 15. 19:18
반응형

01) 확률 변수의 Transformation

00_서론

확률 변수 $X$와 그 PDF $f_X(x)$가 주어졌을 때, Transformation $Y=g(X)$로 정의된 새로운 random variable $Y$의 PDF $f_Y(y)$를 유도하는 과정은 확률 모델링과 시뮬레이션에서 반복적으로 등장한다.

이 글의 목표는 $f_Y(y)$를 유도하는 가장 일관된 절차를 CDF에서 시작해 정리하고, 선형 Transformation과 제곱 Transformation 예제를 통해 설명한다.

특히 continuous random variable에서는 한 점에서의 확률이 0이므로 discrete random variable에서처럼 확률을 더하는 방식이 아니라 CDF와 미분을 이용해 PDF를 직접 도출해야 함으로, 이를 주로 다룬다.

01_확률 변수 Transformation의 기본 정의

확률 변수 Transformation 문제는 다음 요소로 구성된다.

  • 입력: random variable $X$와 PDF $f_X(x)$, 또는 CDF $F_X(x)$
  • Transformation: $Y=g(X)$
  • 목표: $Y$의 PDF $f_Y(y)$를 정확하게 유도

discrete random variable에서의 관점

discrete random variable에서는 특정 값 $y$에 대해 $Y=g(X)=y$를 만족하는 항의 확률을 합하면 된다.

$$
P(Y=y)=\sum_{x:\ g(x)=y} P(X=x)
$$

→ 한 $y$에 대응하는 $x$가 여러 개일 수 있으며, 그 개수만큼 항이 늘어난다.

continuous random variable에서의 관점

continuous random variable에서는 $P(Y=y)=0$이므로 확률 질량을 더하는 방식이 의미가 없고, CDF와 PDF의 관계 $f_Y(y)=\frac{d}{dy}F_Y(y)$를 통해 밀도를 유도해야 한다.

  • 핵심 차이: discrete random variable은 합(sum), continuous random variable은 적분(integral)과 미분(derivative)이 기본 방식이 된다.

02_CDF 기반 유도

Transformation에서 가장 견고한 방법은 항상 CDF에서 시작하는 것이다.

  1. CDF 정의: $F_Y(y)=P(Y\le y)$
  2. 치환: $Y=g(X)$를 대입해 $P(g(X)\le y)$로 바꾸기
  3. 부등식 정리: 사건을 $X$에 대한 구간 또는 여러 구간의 합집합으로 표현하기
  4. $F_X$로 표현: $P(X\in \cdot)$를 $F_X$로 바꾸기
  5. 미분: $f_Y(y)=\frac{d}{dy}F_Y(y)$로 PDF 도출하기

03_예제 1: linear Transformation $Y=aX+b$

문제 정의

Gaussian distribution을 따르는 random variable $X$가 주어지고 $Y=aX+b$로 정의될 때, $f_Y(y)$를 $f_X(x)$로부터 유도한다.($X$는 Gaussian distribution을 따른다.)

모델링

  • $a \neq 0$
  • $X$는 임의의 continuous random variable이며 CDF $F_X$와 PDF $f_X$가 존재한다고 가정한다.
  • $\begin{aligned}X:\quad\frac{1}{\sqrt{2\pi},\sigma}\exp\!\left(-\frac{x^2}{2\sigma^2}\right)\end{aligned}$

수식 전개

경우 1: $a>0$

  1. CDF 정의와 치환: $F_Y(y)=P(Y\le y)=P(aX+b\le y)$
  2. 부등식 정리: $P\!\left(X\le \frac{y-b}{a}\right)$
  3. $F_X$로 표현: $F_Y(y)=F_X\!\left(\frac{y-b}{a}\right)$
  4. 미분 : $f_Y(y)=\frac{d}{dy}F_X\!\left(\frac{y-b}{a}\right)=f_X\!\left(\frac{y-b}{a}\right)\cdot\frac{1}{a}$

\begin{aligned}f_Y(y)&= \frac{1}{a}\,\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{1}{2}\left(\frac{y-b}{a\sigma}\right)^2\right) \\[6pt]&= \frac{1}{\sqrt{2\pi}\,a\sigma}\exp\!\left(-\frac{(y-b)^2}{2(a\sigma)^2}\right)\end{aligned}

경우 2: $a<0$

  1. CDF 정의와 치환: $F_Y(y)=P(aX+b\le y)$
  2. 부등식 정리: $a<0$이므로 $P\!\left(X\ge \frac{y-b}{a}\right)$
  3. $F_X$로 표현: continuous random variable에서는 $P(X\ge t)=1-F_X(t)$로 쓸 수 있으므로 $F_Y(y)=1-F_X\!\left(\frac{y-b}{a}\right)$
  4. 미분:
    $$
    f_Y(y)=\frac{d}{dy}\Big(1-F_X\!\left(\frac{y-b}{a}\right)\Big)=-f_X!\left(\frac{y-b}{a}\right)\cdot\frac{1}{a}=f_X\!\left(\frac{y-b}{a}\right)\cdot\frac{1}{|a|}
    $$

결과 해석

두 경우를 통합하면 선형 Transformation의 PDF는 다음과 같다.

$$
f_Y(y)=\frac{1}{|a|},f_X\!\left(\frac{y-b}{a}\right)
$$

  • $b$는 분포를 shift한다.
  • $|a|$는 스케일을 바꾸며, 그에 따라 밀도는 $\frac{1}{|a|}$만큼 보정된다.
  • → 선형 Transformation은 좌표축에서의 늘림과 이동이므로, 확률 보존을 위해 밀도가 역스케일로 조정된다는 점이 핵심이다.

04_예제 2: Quadratic Transformation $Y=X^2$

문제 정의

$Y=X^2$로 정의될 때, $f_Y(y)$를 CDF 방법으로 유도한다.

모델링

  • $X$는 continuous random variable이며 CDF $F_X$, PDF $f_X$가 존재한다고 가정한다.
  • $Y=X^2$이므로 $Y$의 support는 $y\ge 0$이다.

수식 전개

  1. CDF 정의: $F_Y(y)=P(Y\le y)=P(X^2\le y)$
  2. 사건 정리: $y<0$이면 $X^2\le y$는 불가능하므로 $F_Y(y)=0$이고, $y\ge 0$이면 $X^2\le y \iff -\sqrt{y}\le X\le \sqrt{y}$
  3. $F_X$로 표현:
  4. $$
    F_Y(y)=
    \begin{cases}
    0, & y<0 \
    F_X(\sqrt{y})-F_X(-\sqrt{y}), & y\ge 0
    \end{cases}
    $$
  5. 미분: $y>0$에서 합성함수 미분을 적용하면
  6. $$
    \begin{aligned}
    f_Y(y)
    &=\frac{d}{dy}\Big(F_X(\sqrt{y})-F_X(-\sqrt{y})\Big) \
    &=f_X(\sqrt{y})\cdot\frac{1}{2\sqrt{y}}-f_X(-\sqrt{y})\cdot\Big(-\frac{1}{2\sqrt{y}}\Big) \
    &=\frac{1}{2\sqrt{y}}\Big(f_X(\sqrt{y})+f_X(-\sqrt{y})\Big),\quad y>0
    \end{aligned}
    $$

결과 해석

  • 한 $y>0$에 대해 $x=\sqrt{y}$와 $x=-\sqrt{y}$ 두 개의 preimage가 존재하므로 PDF가 두 항의 합으로 나타난다.
  • 스케일 보정 계수 $\frac{1}{2\sqrt{y}}$는 $y=x^2$의 기울기 $g'(x)=2x$에 의해 결정되며, $|dx/dy|=\frac{1}{|2x|}$가 각 preimage에 붙는다.
  • → many-to-one Transformation에서는 원상의 개수만큼 항이 생기고, 각 항은 Jacobian 계수로 보정된다는 구조가 핵심이다.

Estimation적 해석

  • $X$를 estimator $\hat{\theta}$의 estimation error로 두면 $X=\hat{\theta}-\theta$이며, 평균이 0인 Gaussian distribution $X\sim \mathcal{N}(0,\sigma^2)$로 모델링하는 경우가 많다.
  • 이때 $Y=X^2$는 squared error로, 부호 정보를 제거하고 오차의 크기만 남긴 지표이므로 loss 관점에서 자연스럽게 등장한다.
  • $Y$의 분포가 중요해지는 이유는 한 번의 추정 결과가 평균적으로 얼마나 큰 오차를 내는지뿐 아니라, 큰 오차가 얼마나 자주 발생하는지를 확률적으로 평가해야 하기 때문이다.
  • 특히 $E[Y]=E[X^2]=\mathrm{Var}(X)=\sigma^2$이므로 $\sigma^2$는 squared error의 평균 크기와 동일하며, $\sigma^2$가 작을수록 추정이 평균적으로 더 정밀하다는 의미가 된다.
  • 또한 $f_Y(y)$는 $y\approx 0$ 근처에서 밀도가 커지고, 특정 임계값 $t$에 대해 $P(Y>t)=P(|X|>\sqrt{t})$로 바로 연결되므로, 큰 오차가 발생할 확률을 tail probability로 정량화할 수 있다.

05_일반화: 역함수와 Jacobian 기반 공식

CDF 방식은 모든 경우에 적용 가능하지만, 계산을 빠르게 하기 위해 단조 구간에서의 공식으로 정리할 수 있다.

  • $g$가 일대일 대응이고 미분 가능하며 역함수 $x=g^{-1}(y)$가 존재하면
    $$
    f_Y(y)=f_X(g^{-1}(y))\left|\frac{d}{dy}g^{-1}(y)\right|
    $$
  • $g$가 $y=x^2$과 같이 일대다로 대응이고 $y$에 대해 해집합이 ${x_i(y)}$로 주어지면→ linear Transformation은 해가 1개인 경우이고, quadratic Transformation은 해가 2개인 경우에 해당한다.
    $$
    f_Y(y)=\sum_i f_X(x_i(y))\left|\frac{dx_i(y)}{dy}\right|
    $$

https://www.youtube.com/watch?v=I_KkyaxUkFs

 

반응형