똑바른 날개

[확률과 통계 28] Central Limit Theorem Noise and Sampling Theory 본문

공부/확률과 통계

[확률과 통계 28] Central Limit Theorem Noise and Sampling Theory

Upright_wing 2026. 1. 20. 20:46
반응형

01) Central Limit Theorem: 표본합이 정규 분포로 수렴하는 이유와 응용

00_서론

중심 극한 정리 Central Limit Theorem는 서로 독립인 random variable들이 충분히 많이 합쳐질 때 그 합이나 평균이 정규 분포 Gaussian Distribution로 근사된다는 사실을 설명하며, 이 성질은 잡음 모델링, 통계적 추론, 신호 처리에서 반복적으로 사용된다.
현실의 관측값은 여러 독립 요인의 누적 결과로 나타나는 경우가 많으므로, 개별 요인의 분포를 정확히 알기 어렵더라도 합의 분포를 정규 분포로 다룰 수 있다는 점이 Central Limit Theorem의 핵심 가치이다.

01_Central Limit Theorem의 정의

Central Limit Theorem는 i.i.d. 조건과 유한한 Expectation 및 Variance를 전제로, 합을 적절히 표준화한 random variable $Y$가 $n$이 커질수록 표준 정규 분포에 가까워짐을 말한다.

  • 조건: $X_1,X_2,\ldots,X_n$은 i.i.d.이며 $E[X_i]=\mu$, $\mathrm{Var}(X_i)=\sigma^2$이고 $0<\sigma^2<\infty$이다.
  • 표준화된 합 $Y$
    $$
    Y=\frac{\sum_{i=1}^{n}X_i-n\mu}{\sigma\sqrt{n}}
    $$
  • 수렴 진술:→ $\sum_{i=1}^{n}X_i$는 $n$이 커질수록 평균이 $n\mu$ 근처로 커지고 퍼짐도 함께 커지므로, 이를 평균 $n\mu$만큼 빼서 중심을 0으로 옮기고 $\sigma\sqrt{n}$으로 나누어 퍼짐을 1 수준으로 맞추면, 그 결과가 항상 비슷한 모양의 정규 분포로 안정화된다.
    $$
    Y \Rightarrow \mathcal{N}(0,1)\quad (n\to\infty)
    $$

같은 내용을 표본합과 Sample Mean 관점에서 쓰면 다음과 같다.

  • 표본합 $S_n=\sum_{i=1}^{n}X_i$의 근사
    $$
    S_n \approx \mathcal{N}(n\mu,n\sigma^2)
    $$
  • Sample Mean $\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$의 근사:→ $\bar{X}$의 평균은 항상 $\mu$이고 분산은 $\sigma^2/n$이므로, $n$이 커질수록 $\bar{X}$는 $\mu$ 주변에 더 좁게 모이며 평균 추정이 더 안정적이 된다.
    $$
    \bar{X}\approx \mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)
    $$

02_확률론적 의미와 직관

Central Limit Theorem의 핵심 의미는 개별 분포의 형태가 직접적으로 알려져 있지 않더라도 i.i.d.와 유한 분산이라는 조건만으로 Random variable의 합의 분포가 정규 분포로 근사된다는 점이다.
연속형에서 독립 random variable의 합은 Convolution으로 분포가 누적되며, 많은 횟수의 Convolution이 반복될수록 분포의 형태가 종 모양으로 안정화되는 경향이 나타난다.

03_응용: 잡음, 설문조사, 신호 처리

잡음 모델링에서의 Central Limit Theorem

관측 잡음 noise는 여러 독립 원인의 합으로 발생하는 경우가 많으므로, 개별 원인의 분포가 서로 달라도 전체 잡음을 정규 분포로 근사하는 모델이 자주 사용된다.

  • 모델: $x=I+n$에서 $I$는 신호, $n$은 noise이며 $n$을 $\mathcal{N}(0,\sigma_n^2)$로 두는 모델은 많은 독립 요인의 합이라는 구조와 잘 맞는다.
  • → 복합 원인의 합으로 나타나는 오차는 정규 분포로 근사되기 쉬우므로 분석과 필터 설계가 단순해진다.

설문조사에서의 Sample Mean과 불확실성

설문조사에서 각 응답을 random variable $X_i$로 두면 Sample Mean $\bar{X}$는 모집단 평균 $\mu$에 대한 estimator로 해석되며, i.i.d. 가정은 무작위 추출과 응답 간 영향 최소화를 수학적으로 표현한다.

  • Example 모델: 만족도 점수 응답을 $X_i$로 두고 $E[X_i]=\mu$, $\mathrm{Var}(X_i)=\sigma^2$라고 하면 $\bar{X}=\frac{1}{n}\sum X_i$는 표본 평균 만족도이다.
  • 근사 분포:

$$
\bar{X}\approx \mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)
$$

→ $n$이 증가할수록 $\mathrm{Var}(\bar{X})=\sigma^2/n$가 감소하므로 설문 평균의 오차 폭이 줄어들며, 이 구조가 신뢰구간 confidence interval의 폭이 $1/\sqrt{n}$에 비례해 감소하는 이유를 제공한다.

신호 처리에서의 평균화와 잡음 감소

동일한 조건에서 반복 측정한 관측값 $x_i=I+n_i$를 평균내면 noise 성분의 분산이 감소하여 신호 복원 성능이 향상된다.

  • 고정 신호: $x_i=I+n_i$, $E[n_i]=0$, $\mathrm{Var}(n_i)=\sigma_n^2$이면

$$
\bar{x}=\frac{1}{N}\sum_{i=1}^{N}x_i=I+\bar{n},\quad \mathrm{Var}(\bar{n})=\frac{\sigma_n^2}{N}
$$

→ $N$을 늘리면 noise의 분산이 $\sigma_n^2/N$로 감소하므로 평균화만으로도 잡음이 줄어든다.

동일한 대상(예: 정지된 물체의 무게)을 $N$번 반복 측정했을 때, 평균값이 얼마나 실제값($I$)에 수렴하는지 보여준다.

  • 가변 신호: $x_i=I_i+n_i$에서 $I_i$도 변하면 평균화는 noise뿐 아니라 신호 변동도 함께 줄이는 smoothing 효과를 만들 수 있다.

$$ \begin{aligned}\bar{X}&= \frac{1}{n}\left(X_1 + X_2 + X_3 + \cdots + X_n\right) \\[6pt]&= \frac{1}{n}\sum_{i=1}^{n} (I_i + N_i) = \frac{1}{n}\sum_{i=1}^{n} I_i  + \frac{1}{n}\sum_{i=1}^{n} N_i
\end{aligned}
\Longrightarrow
\begin{aligned}
\quad
f_{\bar{X}}(\bar{x})
&\cong \mathcal{N}\!\left(m, \frac{\sigma^2}{n}\right)
      + \mathcal{N}\!\left(0, \frac{\sigma_N^2}{n}\right)
\end{aligned} $$

→ 평균화는 noise reduction에 유리하지만 신호의 급격한 변화 성분까지 약화시킬 수 있으므로 목적에 따라 $N$ 또는 가중 평균 weighted mean을 설계한다.

신호가 시간에 따라 변할 때(예: 주식 가격, 센서 데이터), 평균화(Moving Average)는 잡음을 줄여주지만 신호의 급격한 변화(Edge)를 뭉개뜨리는 효과를 동시에 가진다.

04_결론

Central Limit Theorem는 i.i.d.와 유한 분산 조건에서 표준화된 합 $Y=\frac{\sum_{i=1}^{n}X_i-n\mu}{\sigma\sqrt{n}}$가 $n\to\infty$일 때 $\mathcal{N}(0,1)$로 수렴함을 보장하며, 이로부터 Sample Mean $\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$가 $\mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)$로 근사된다는 결론이 따라온다.
→ 즉, 표본을 많이 모아 평균을 내면 그 평균은 $\mu$ 주변에 정규 분포 형태로 모이고, 분산은 $\sigma/\sqrt{n}$ 수준으로 줄어들므로, 잡음의 Gaussian 모델링, 설문조사 및 품질관리에서의 평균 추정과 신뢰구간 계산, 신호 처리에서의 평균화 기반 잡음 감소가 모두 같은 수학적 구조 위에서 설명된다.

반응형