원문 보기: https://dawoum.duckdns.org/wiki/모평균의_추정
이제, 다시 원래 주제로 돌아와서, 대학 수학능력 시험의 채점이 끝나기 전에 학생들의 가채점 점수로 올해 수능의 평균을 예상해 볼 것입니다. 물론, 예상은 누구나 할 수 있지만, 과연 예상된 평균은 얼마나 믿을 수 있을까요?
예를 들어, 완전히 신뢰할 수 있도록 다음과 같이 예상할 수 있습니다.
"이번 시험의 평균은 0점에서 100점 사이의 값일 것입니다."
하지만, 이런 종류의 말은 언제나 참이기 때문에, 예상했다와는 거리가 있습니다.
이것을 거꾸로 생각하면, 언제나 참이 되는 예상외에는 틀릴 가능성이 항상 포함된다는 것을 의미합니다.
게다가, 연속확률변수에서, 평균의 예상을 한 점수로 예상하지는 않습니다. 왜냐하면, 평균이 75점과 같이 자연수로 될 가능성이 매우 낮은데, 실수는 대부분 무리수로 이루어져 있기 때문입니다.
따라서, 예상이 맞을 가능성이 있으려면, 대부분의 경우에서, 예상되는 값이 속할 구간으로 표현하는 것이 바람직합니다.
예를 들어, "올해의 평균 점수는 71점에서 73점 사이일 것입니다"와 같이 예상하는 것이 일반적입니다.
앞에서 사용한 용어는 모집단의 평균이 포함될 예상되는 구간을 참이 될 가능성이 있는 구간으로 신뢰구간이라고 합니다. 그리고, 그 구간 안에 모집단의 평균이 속할 가능성을 신뢰도라고 합니다.
그리고 표본화에서 언급한 것처럼, 표본을 임의추출하지 않고, 의도적으로 뽑은 것에 의한 신뢰구간과 신뢰도는 믿기 곤란합니다.
이제 보다 구체적으로, 표본으로부터 모집단의 평균을 예상할 때, 실제로 사회에서 자주 사용하는 숫자를 통해 알아보겠습니다.
모집단의 분포 \(X\)가 정규분포 \(N\left(m,\sigma^2\right)\)을 따른다고 알려져 있고, 이 모집단에서 크기가 \(n\)인 표본을 임의로 추출했을 때, 표본평균 \(\overline{X}\)는 정규분포 \(N\left(m,\frac{\sigma^2}{n}\right)\)을 따른다고 알려져 있습니다.
보통 어떤 조사(예상)가 이루어지면, 우리의 조사가 신뢰도 \(95 \%\)를 가진다는 것은 어떤 의미일까요?
이것은 다른 말로, 예상이 맞을 확률이 \(95 \%\)라는 의미이므로, 표준정규분포에서 그의 넓이가 \(0.95\)가 되어야 함을 의미합니다.이때, 넓이는, 가능한 예상이 맞아야 하므로, 평균을 주변으로 넓이가 잡혀야 하는데, 즉, 표준정규분포는 0을 중심으로 좌우대칭이므로, 다음의 위치에 놓이게 됩니다.
\(\quad\)\(P(0 \le Z \le z) = 0.475\)
이 값을 표준정규분포표에서 찾으면, \(z=1.96\)입니다.
지금, 우리가 구한 평균은 표본평균 \(\overline{x}\)으로부터, 표준화한 변수 \(z\)의 값이 \(1.96\)이므로 다음과 같이 표준화한 것입니다:
\(\quad\)\(\displaystyle \frac{\overline{x}-m}{\frac{\sigma}{\sqrt{n}}}=1.96\)
그러므로, 모집단의 평균의 예상의 한쪽 끝점은 다음과 같습니다.\(\quad\)\(\displaystyle m=\overline{x}-1.96\frac{\sigma}{\sqrt{n}}\)
물론, 다른 끝점은 그의 대칭성으로 \(z=-1.96\)이므로,
\(\quad\)\(\displaystyle m=\overline{x}+1.96\frac{\sigma}{\sqrt{n}}\)
따라서, 신뢰도 \(95 \%\)를 가지는 예상되는 모집단의 평균의 구간은 다음과 같이 쓸 수 있습니다.
\(\quad\)\(\displaystyle \overline{x}-1.96\frac{\sigma}{\sqrt{n}} \le m \le \overline{x}+1.96\frac{\sigma}{\sqrt{n}}\)
만약, 신뢰도를 \(99 \%\)로 높이면,
\(\quad\)\(P(0 \le Z \le z) = 0.495\)
의 값을 가져야 하므로, 표준정규분포표에서 \(z=2.58\)입니다.
따라서, 신뢰도 \(99 \%\)를 가지는 예상되는 모집단의 평균의 구간은 다음과 같이 쓸 수 있습니다.
\(\quad\)\(\overline{x}-2.58\frac{\sigma}{\sqrt{n}} \le m \le \overline{x}+2.58\frac{\sigma}{\sqrt{n}}\)
이를 일반화하면,
모집단의 분포 \(X\)가 정규분포 \(N\left(m, \sigma^2 \right)\)을 따른다고 알려져 있고, 이 모집단에서 크기가 \(n\)인 표본을 임의로 추출했을 때, 표본평균 \(\overline{X}\)의 값이 \(\overline{x}\)이고, 신뢰도 \(\alpha \% \)인 모평균의 신뢰구간은
- 표준정규분포표에서, \(\displaystyle P(0 \le Z \le k) = \frac{\alpha}{100}\times \frac{1}{2}\)를 만족하는
- 양의 실수 \(z=k\)에 대해, \(\displaystyle \overline{x}-k\frac{\sigma}{\sqrt{n}} \le m \le \overline{x}+k\frac{\sigma}{\sqrt{n}}\)
앞에서 언급한 것처럼, 같은 크기의 표본에서,
- 신뢰도를 높이면, 즉, 맞을 가능성을 높이면 : 신뢰구간(평균이 놓일 구간)을 커져서, 양의 실수 \(k\)가 커집니다. 다르게 표현하면, (위에서 10점에서 90점 사이처럼) 평균이 놓일 구간이 커져서, 잘 맞기는 하지만 쓸모는 없어집니다.
- 신뢰도를 낮추면, 즉, 맞을 가능성을 낮추면 : 신뢰구간이 작아져서, 양의 실수 \(k\)가 작아집니다. 다르게 표현하면, (71.2에서 71.3까지처럼) 신뢰구간이 작아져서 그렇듯해 보이지만, 적중률은 상당히 떨어져서 쓸모가 없습니다.
따라서, 신뢰도 \(95 \%, 99 \%\)를 많이 이용합니다.
예를 들어 신뢰도 \(70 \%\)는, 표준정규분포표에서, 확률 \(0.35\)에 해당하는 값 \(z=1.04\)를 찾아서, 다음과 같이 신뢰구간을 쓸 수 있습니다.
\(\quad\)\(\displaystyle \overline{x}-1.04\frac{\sigma}{\sqrt{n}} \le m \le \overline{x}+1.04\frac{\sigma}{\sqrt{n}}\)
한편, 모집단의 분포가 알려져 있지 않으면, 모표준편차 \(\sigma\)를 알 수 없으므로, 어쨌든, 표본의 크기가 충분히 크면, 표본 집단의 표본표준편차 \(s\)는 모표준편차 \(\sigma\)와 거의 같아지므로, \(\sigma\) 대신에 \(s\) 값을 사용해서 신뢰구간을 추정합니다.
신뢰구간의 길이
모평균의 추정
\(\quad\)\(\displaystyle \overline{x}-k\frac{\sigma}{\sqrt{n}} \le m \le \overline{x}+k\frac{\sigma}{\sqrt{n}}\)
으로부터, 신뢰구간의 길이 \(l\)는 다음과 같이 구해집니다.
\(\quad\)\(\displaystyle l=2k\frac{\sigma}{\sqrt{n}}\)
여기서는 \(k\)는 신뢰도에 따라 구해지는데,
- 신뢰도 \(95 \%\)일 때, \(k=1.96\)입니다.
- 신뢰도 \(99 \%\)일 때, \(k=2.58\)입니다.
이 상수값은 외울 필요가 없는데, 왜냐하면 시험에서는 표준정규분포표를 제공하던지, 해당되는 넓이(확률)를 표현하는 식을 반드시 제공하기 때문입니다.
댓글
댓글 쓰기