랜덤 오차를 어떻게 다룰 수 있는가?

확률 이론

확률

사건의 발생 횟수와 전체 경우의 수에 대한 비율
0에서 1사이의 값을 가지며, 0에 가까울수록 발생 빈도가 낮고 1에 가까울수록 발생 빈도가 높습니다.

복합사건

독립적인 사건이 둘 혹은 그 이상의 발생
이들의 확률은 각각 확률의 곱입니다.
P = P1×P2× … ×Pn

정규 분포

만약 -1과 1이라는 값을 가지는 사건이 있다고 생각해 봅시다. 그 사건이 두번 일어나면 2, 0, -2의 값을 가질 수 있고, 빈도는 각각 1, 2, 1입니다. 이 사건이 세번 일어나면 3, 1, -1, -3의 값을 가질 수 있고, 빈도는 각각 1, 3, 3, 1입니다. 이렇게 반복되면 이 사건의 Plot은 종 모양을 형성하게 됩니다. 다음 그림과 같이 말이죠.

이렇게 무수한 경우의 수가 모여 완전히 부드러운 종 모양을 형성하면,

다음과 같은 모양이 되고, 이것을 정규 분포 (Normal distribution)라고 하고, NPDF는 이 확률에 대한 함수를 말합니다. 한국어로 확률밀도함수입니다. (Normal Probability Density Function)

확률밀도함수는 다음과 같습니다.

확률밀도함수의 특징

확률밀도함수는 확률 변수가 나올 수 있는 전체 구간 ( −∞ ~ ∞ )을 아주 작은 폭(dx)을 가지는 구간으로 나눈 다음 각 구간의 확률을 정의한 것입니다.

만약 그림과 같이 오차에 대한 확률밀도함수라면, 곡선 아래의 x 와 x+dx사이의 값이 오차가 x일 확률의 값입니다.

확률밀도함수의 전체 값에 대한 적분은 1입니다.
확률밀도함수의 1차 미분값이 0인 경우는 x=0 or y=0입니다. 따라서 x가 0일때 최대값을 갖고 y가 0일때 최소값을 갖습니다.
확률밀도함수의 2차 미분값이 0인 경우는 x=±σ입니다. 따라서 x가 ±σ일때 변곡점을 갖습니다.

정규화와 SNDF(정규분포의 확률밀도함수) 사용

다양한 측정 상황에서, 값의 분포는 측정마다 달라지는 것을 알 수 있습니다. 평균도 다르고, 표준편차도 다를 것입니다. 그런데 이때 우리는 정규 분포를 이용해서 값을 얻고 싶은데, 어떻게 할 수 있을까요?

정규화

정규화는 일반적인 분포로도 표준 정규분포를 이용할 수 있도록 수식을 간단하게 변경하는 것입니다. 정규화의 과정은 다음과 같습니다.

정규화 사용 예제

우리는 이 정규화를 이용해서 다양한 문제를 풀이할 수 있습니다.
만약 μ = 1.0, σ = 2.0인데 P(x<3.0)를 구하고 싶다면 어떻게 할까요?

이러한 풀이가 가능하겠죠.

SNDF의 특징

구간에 대한 확률 P(a < z < b)를 구하려면 어떻게 하면 될까요? 적분하듯이 하면 됩니다.

대칭성을 이용해 값을 간단하게 구할 수 있습니다.

대칭성을 이용한 식을 응용해 이렇게 쓸 수도 있는데, 신뢰구간을 정할 때 유용하게 쓰입니다.

표준 오차의 확률

만약 50%의 오차가 발생하는 구간을 찾고 싶다면, 정규화하여 z까지의 값이 0.75인 경우를 찾으면 되겠습니다. P(I z I < t) = 0.5 = 2Nz(t)-1 이고, 1.5 = 2Nz(t) 이고, 0.75 = Nz(t) 이기 때문입니다. 그러나 표준 정규 분포요에서 0.75에 해당하는 값을 찾을 수 없습니다. 가장 가까운 값은
Nz(0.67)=0.7486, Nz(0.68)=0.7517이 가장 가까웠는데요, 중간 값을 찾기 위해 둘 사이를 내삽합니다. 내삽 과정은 다음과 같습니다.

이러한 멀티플라이어 역시 이미 계산된 표가 있습니다. (주로 사용하는 값 위주)

표준 오차에 대한 확률을 사용하는 이유

어떤 측정치를 수용할 지 판단할 수 있습니다.
이상점을 분류하는 데 사용합니다.
범위는 이상점이라고 가정해 제거할 수 있습니다.