| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- rust
- 비동기적
- Cargo
- unittest
- generic pointer
- CMAKE
- subsribe
- vscode
- broad-phase
- CONSTRAINTS
- narrow-phase
- C++
- plotjuggler
- Topic
- gjk-epa
- Turtlesim
- rospy.spin
- cbindgen
- corrosion
- UV
- roslaunch
- 데이터분석
- mock
- remapping
- convex
- gjk
- separating axis theorem(sat)
- 워크스페이스
- gradient accumulation
- ROS
- Today
- Total
똑바른 날개
[확률과 통계 23] Transform of RVs (Part 1)- Introduction 본문
01) 확률 변수의 Transformation
00_서론
확률 변수 $X$와 그 PDF $f_X(x)$가 주어졌을 때, Transformation $Y=g(X)$로 정의된 새로운 random variable $Y$의 PDF $f_Y(y)$를 유도하는 과정은 확률 모델링과 시뮬레이션에서 반복적으로 등장한다.
이 글의 목표는 $f_Y(y)$를 유도하는 가장 일관된 절차를 CDF에서 시작해 정리하고, 선형 Transformation과 제곱 Transformation 예제를 통해 설명한다.
특히 continuous random variable에서는 한 점에서의 확률이 0이므로 discrete random variable에서처럼 확률을 더하는 방식이 아니라 CDF와 미분을 이용해 PDF를 직접 도출해야 함으로, 이를 주로 다룬다.
01_확률 변수 Transformation의 기본 정의
확률 변수 Transformation 문제는 다음 요소로 구성된다.
- 입력: random variable $X$와 PDF $f_X(x)$, 또는 CDF $F_X(x)$
- Transformation: $Y=g(X)$
- 목표: $Y$의 PDF $f_Y(y)$를 정확하게 유도
discrete random variable에서의 관점
discrete random variable에서는 특정 값 $y$에 대해 $Y=g(X)=y$를 만족하는 항의 확률을 합하면 된다.
$$
P(Y=y)=\sum_{x:\ g(x)=y} P(X=x)
$$
→ 한 $y$에 대응하는 $x$가 여러 개일 수 있으며, 그 개수만큼 항이 늘어난다.
continuous random variable에서의 관점
continuous random variable에서는 $P(Y=y)=0$이므로 확률 질량을 더하는 방식이 의미가 없고, CDF와 PDF의 관계 $f_Y(y)=\frac{d}{dy}F_Y(y)$를 통해 밀도를 유도해야 한다.
- 핵심 차이: discrete random variable은 합(sum), continuous random variable은 적분(integral)과 미분(derivative)이 기본 방식이 된다.
02_CDF 기반 유도
Transformation에서 가장 견고한 방법은 항상 CDF에서 시작하는 것이다.
- CDF 정의: $F_Y(y)=P(Y\le y)$
- 치환: $Y=g(X)$를 대입해 $P(g(X)\le y)$로 바꾸기
- 부등식 정리: 사건을 $X$에 대한 구간 또는 여러 구간의 합집합으로 표현하기
- $F_X$로 표현: $P(X\in \cdot)$를 $F_X$로 바꾸기
- 미분: $f_Y(y)=\frac{d}{dy}F_Y(y)$로 PDF 도출하기
03_예제 1: linear Transformation $Y=aX+b$
문제 정의
Gaussian distribution을 따르는 random variable $X$가 주어지고 $Y=aX+b$로 정의될 때, $f_Y(y)$를 $f_X(x)$로부터 유도한다.($X$는 Gaussian distribution을 따른다.)
모델링
- $a \neq 0$
- $X$는 임의의 continuous random variable이며 CDF $F_X$와 PDF $f_X$가 존재한다고 가정한다.
- $\begin{aligned}X:\quad\frac{1}{\sqrt{2\pi},\sigma}\exp\!\left(-\frac{x^2}{2\sigma^2}\right)\end{aligned}$
수식 전개
경우 1: $a>0$
- CDF 정의와 치환: $F_Y(y)=P(Y\le y)=P(aX+b\le y)$
- 부등식 정리: $P\!\left(X\le \frac{y-b}{a}\right)$
- $F_X$로 표현: $F_Y(y)=F_X\!\left(\frac{y-b}{a}\right)$
- 미분 : $f_Y(y)=\frac{d}{dy}F_X\!\left(\frac{y-b}{a}\right)=f_X\!\left(\frac{y-b}{a}\right)\cdot\frac{1}{a}$
\begin{aligned}f_Y(y)&= \frac{1}{a}\,\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{1}{2}\left(\frac{y-b}{a\sigma}\right)^2\right) \\[6pt]&= \frac{1}{\sqrt{2\pi}\,a\sigma}\exp\!\left(-\frac{(y-b)^2}{2(a\sigma)^2}\right)\end{aligned}
경우 2: $a<0$
- CDF 정의와 치환: $F_Y(y)=P(aX+b\le y)$
- 부등식 정리: $a<0$이므로 $P\!\left(X\ge \frac{y-b}{a}\right)$
- $F_X$로 표현: continuous random variable에서는 $P(X\ge t)=1-F_X(t)$로 쓸 수 있으므로 $F_Y(y)=1-F_X\!\left(\frac{y-b}{a}\right)$
- 미분:
$$
f_Y(y)=\frac{d}{dy}\Big(1-F_X\!\left(\frac{y-b}{a}\right)\Big)=-f_X!\left(\frac{y-b}{a}\right)\cdot\frac{1}{a}=f_X\!\left(\frac{y-b}{a}\right)\cdot\frac{1}{|a|}
$$
결과 해석
두 경우를 통합하면 선형 Transformation의 PDF는 다음과 같다.
$$
f_Y(y)=\frac{1}{|a|},f_X\!\left(\frac{y-b}{a}\right)
$$
- $b$는 분포를 shift한다.
- $|a|$는 스케일을 바꾸며, 그에 따라 밀도는 $\frac{1}{|a|}$만큼 보정된다.
- → 선형 Transformation은 좌표축에서의 늘림과 이동이므로, 확률 보존을 위해 밀도가 역스케일로 조정된다는 점이 핵심이다.

04_예제 2: Quadratic Transformation $Y=X^2$
문제 정의
$Y=X^2$로 정의될 때, $f_Y(y)$를 CDF 방법으로 유도한다.
모델링
- $X$는 continuous random variable이며 CDF $F_X$, PDF $f_X$가 존재한다고 가정한다.
- $Y=X^2$이므로 $Y$의 support는 $y\ge 0$이다.
수식 전개
- CDF 정의: $F_Y(y)=P(Y\le y)=P(X^2\le y)$
- 사건 정리: $y<0$이면 $X^2\le y$는 불가능하므로 $F_Y(y)=0$이고, $y\ge 0$이면 $X^2\le y \iff -\sqrt{y}\le X\le \sqrt{y}$
- $F_X$로 표현:
- $$
F_Y(y)=
\begin{cases}
0, & y<0 \
F_X(\sqrt{y})-F_X(-\sqrt{y}), & y\ge 0
\end{cases}
$$ - 미분: $y>0$에서 합성함수 미분을 적용하면
- $$
\begin{aligned}
f_Y(y)
&=\frac{d}{dy}\Big(F_X(\sqrt{y})-F_X(-\sqrt{y})\Big) \
&=f_X(\sqrt{y})\cdot\frac{1}{2\sqrt{y}}-f_X(-\sqrt{y})\cdot\Big(-\frac{1}{2\sqrt{y}}\Big) \
&=\frac{1}{2\sqrt{y}}\Big(f_X(\sqrt{y})+f_X(-\sqrt{y})\Big),\quad y>0
\end{aligned}
$$
결과 해석
- 한 $y>0$에 대해 $x=\sqrt{y}$와 $x=-\sqrt{y}$ 두 개의 preimage가 존재하므로 PDF가 두 항의 합으로 나타난다.
- 스케일 보정 계수 $\frac{1}{2\sqrt{y}}$는 $y=x^2$의 기울기 $g'(x)=2x$에 의해 결정되며, $|dx/dy|=\frac{1}{|2x|}$가 각 preimage에 붙는다.
- → many-to-one Transformation에서는 원상의 개수만큼 항이 생기고, 각 항은 Jacobian 계수로 보정된다는 구조가 핵심이다.

Estimation적 해석
- $X$를 estimator $\hat{\theta}$의 estimation error로 두면 $X=\hat{\theta}-\theta$이며, 평균이 0인 Gaussian distribution $X\sim \mathcal{N}(0,\sigma^2)$로 모델링하는 경우가 많다.
- 이때 $Y=X^2$는 squared error로, 부호 정보를 제거하고 오차의 크기만 남긴 지표이므로 loss 관점에서 자연스럽게 등장한다.
- $Y$의 분포가 중요해지는 이유는 한 번의 추정 결과가 평균적으로 얼마나 큰 오차를 내는지뿐 아니라, 큰 오차가 얼마나 자주 발생하는지를 확률적으로 평가해야 하기 때문이다.
- 특히 $E[Y]=E[X^2]=\mathrm{Var}(X)=\sigma^2$이므로 $\sigma^2$는 squared error의 평균 크기와 동일하며, $\sigma^2$가 작을수록 추정이 평균적으로 더 정밀하다는 의미가 된다.
- 또한 $f_Y(y)$는 $y\approx 0$ 근처에서 밀도가 커지고, 특정 임계값 $t$에 대해 $P(Y>t)=P(|X|>\sqrt{t})$로 바로 연결되므로, 큰 오차가 발생할 확률을 tail probability로 정량화할 수 있다.
05_일반화: 역함수와 Jacobian 기반 공식
CDF 방식은 모든 경우에 적용 가능하지만, 계산을 빠르게 하기 위해 단조 구간에서의 공식으로 정리할 수 있다.
- $g$가 일대일 대응이고 미분 가능하며 역함수 $x=g^{-1}(y)$가 존재하면
$$
f_Y(y)=f_X(g^{-1}(y))\left|\frac{d}{dy}g^{-1}(y)\right|
$$ - $g$가 $y=x^2$과 같이 일대다로 대응이고 $y$에 대해 해집합이 ${x_i(y)}$로 주어지면→ linear Transformation은 해가 1개인 경우이고, quadratic Transformation은 해가 2개인 경우에 해당한다.
$$
f_Y(y)=\sum_i f_X(x_i(y))\left|\frac{dx_i(y)}{dy}\right|
$$
https://www.youtube.com/watch?v=I_KkyaxUkFs
'공부 > 확률과 통계' 카테고리의 다른 글
| [확률과 통계 25] Transform of RVs (Part 3) - Multiple RVs (1) | 2026.01.19 |
|---|---|
| [확률과 통계 24] Transform of RVs (Part 2)- formulation 1 (0) | 2026.01.16 |
| [확률과 통계 22] Multivariate Gaussian Distribution (0) | 2026.01.15 |
| [확률과 통계 20] Covariance of two RVs (0) | 2026.01.15 |
| [확률과 통계 21] Correlation Coefficient of two RVs (0) | 2026.01.15 |