원문 보기: https://dawoum.duckdns.org/wiki/확률변수의_성질
보통 데이터가 기대하는 것과 아주 다르게 생성되는 경우가 있습니다.
예를 들어, 학교 시험은 100점이 만점이지만, 시험 문제가 매우 어렵게 출제가 되면, 평균이 20점에 머물고 최고점이 50점을 넘지 않는 경우가 있습니다. 이럴 경우에, 데이터를 좀 더 보기 좋게 바꿀 필요를 느낄 수 있습니다. 만약 최고점이 40점이면 100점을 만들기 위해, 2를 곱해서 20을 더할 수 있습니다. 물론 나머지 학생들의 점수도 같은 방식으로 바꾸어야 합니다.
한편, 지금처럼, 데이터를 선형적으로 변형했을 때, 원래의 확률변수의 평균과 분산과 새롭게 만들어진 확률변수의 평균, 분산 사이에는 다음과 같은 관계가 있습니다.
원래 시험의 점수를 확률변수 \(X\)라고 하면, 그의 평균과 분산은, 각각, \(E(X),\;V(X)\)입니다. 이것에 2를 곱하고 20을 더한 확률변수 \(Y(=2X+20)\)의 평균과 분산은 다음과 같이 구해집니다.
\(\quad\)\(\begin{align}
E(Y) & = E(2X+20) \\
& = \sum_{i=1}^n (2x_i+20) p_i \\
& = 2\sum_{i=1}^n x_i p_i + 20 \sum_{i=1}^n p_i \\
& = 2E(X)+20 \\
\end{align}\)
\(\quad\)\(\begin{align}
V(Y) & = \sum_{i=1}^n \left\{(2 x_i+20) - (2m+20)\right\}^2 p_i \\
& = \sum_{i=1}^n \left\{2(x_i - m)\right\}^2 p_i \\
& = 2^2 \sum_{i=1}^n (x_i - m)^2 p_i \\
& = 2^2 V(X) \\
\end{align}\)
일반적으로 확률변수 \(X\)의 일차변환은 \(Y=aX+b\) (단, \(a(\neq 0),b\)는 실수)에 대해, 다음의 식이 성립합니다.
\(\quad\)\(E(Y)=E(aX+b)=aE(X)+b\)
\(\quad\)\(V(Y)=V(aX+b)=a^2V(X)\)
\(\quad\)\(\sigma(Y)=\sigma(aX+b)=|a|\sigma(X)\)
확률변수의 일차변환의 결과에서, 분산에 대해, b가 영향을 미치지 않는 이유는 분산은 데이터가 흩어져 있는 정도를 나타내는 양으로써, 평행이동에 해당하는 b에 의해서 분산은 영향을 받지 않기 때문입니다.
댓글
댓글 쓰기