안녕하세요, 오늘은 68-95-99.7 법칙과 표준정규분포를 살펴보려고 해요.
정규분포에서 데이터가 평균을 기준으로 어떻게 분포되는지를 알려주는 것이 바로 68-95-99.7 법칙이라고 합니다.
이것은 표준편차 안에 얼마만큼의 데이터가 포함되는지를 보여주는데요, 중요한 것은 위 수치들이 정확한 것은 아니고 근사치라고 보시면 됩니다. 물론 정확한 수치를 확인하려면 표준정규분포표를 참고하시면 되지요.
널리 알려진 법칙인 만큼 한번 살펴보면 좋을 것 같습니다.
표준정규분포표를 내려받으시려면 아래 링크로 접속해 주세요.
https://firebird.tistory.com/512
Z-점수 의미와 표준정규분포표로 백분위 확인하기
Z-점수의 의미Z-점수는 개별 데이터 값이 평균에서 얼마나 떨어져 있는지를 표준편차의 단위로 나타낸 값입니다. 이 값을 통해 특정 데이터가 정규분포에서 어느 위치에 있는지 알 수 있습니다.
firebird.tistory.com
앞서 언급했듯이 68-95-99.7 법칙은 정규분포에서 데이터가 평균을 기준으로 어떻게 분포되는지를 나타내는 법칙입니다.
이 법칙은 정규분포에서 각 표준편차 범위 내에 포함되는 데이터의 비율을 설명해 주는데요, 표준정규분포의 법칙이라고도 합니다.
68-95-99.7 법칙:
- 평균 ± 1 표준편차 범위 안에 약 68%의 데이터가 포함됩니다.
- 평균 ± 2 표준편차 범위 안에 약 95%의 데이터가 포함됩니다.
- 평균 ± 3 표준편차 범위 안에 약 99.7%의 데이터가 포함됩니다.
예시 1)
어떤 집단의 키가 평균 170cm이고, 표준편차가 10cm라면,
- 평균 ± 1 표준편차(160cm ~ 180cm) 안에 있는 사람들의 비율은 약 68%입니다.
- 평균 ± 2 표준편차(150cm ~ 190cm) 안에 있는 사람들의 비율은 약 95%입니다.
- 평균 ± 3 표준편차(140cm ~ 200cm) 안에 있는 사람들의 비율은 약 99.7%입니다.
예시 2)
서울의 1년생 아이들의 평균 몸무게가 10kg이고, 표준편차가 1.5kg라고 가정하면,
- 평균 ± 1 표준편차(8.5kg ~ 11.5kg) 범위 안에 있는 아이들은 약 68%일 것입니다.
- 평균 ± 2 표준편차(7kg ~ 13kg) 범위 안에 있는 아이들은 약 95%일 것입니다.
- 평균 ± 3 표준편차(5.5kg ~ 14.5kg) 범위 안에 있는 아이들은 약 99.7%일 것입니다.
이와 같은 방식으로, 아이들의 몸무게 데이터를 분석하여 정규분포로 표현할 수 있습니다.
물음 1) 정규분포에서 양쪽 꼬리는 닫히는가?
☞ 정규분포에서 양쪽 꼬리는 닫히지 않습니다. 정규분포의 그래프는 양쪽으로 끝없이 뻗어나가는 형태를 가지고 있습니다. 이를 꼬리(tails)라고 부르며, 이 꼬리는 이론적으로 무한히 이어지지만, 실제로는 평균에서 멀어질수록 값이 매우 드물어져서 거의 0에 가까워집니다.
즉, 정규분포는 양쪽 꼬리가 끝없이 뻗어나가는 대칭형 곡선이기 때문에, 양쪽 꼬리가 "닫힌다"는 개념은 정규분포의 특성과 맞지 않습니다. 평균에서 매우 멀리 떨어진 값들이 존재할 수는 있지만, 그 확률은 극히 낮습니다.
이러한 특성 때문에 정규분포는 다양한 자연현상과 통계적 분석에서 사용되며, 특히 극단적인 값이 드물게 발생하는 경우를 설명하는 데 유용합니다.
물음 2) 양쪽 꼬리가 닫히지 않는다면 데이터가 무한대로 나아간다는 것인데, 실제로 그런가?
☞ 정규분포는 이론적인 모델이므로 실제로 무한대 값을 가지는 경우는 없습니다.
예를 들어 정규분포에 따르면 서울의 1년생 아이들 중 몸무게가 무한대인 아이도 있을 수 있다는 것인데요, 실제로는 그렇지 않죠. 즉 정규분포에서 꼬리가 끝없이 이어지지만, 현실적으로 무한대의 값을 가지는 경우는 존재하지 않습니다. 정규분포는 이론적인 모델로, 실제 데이터를 설명하는 데 유용하지만, 무한대의 몸무게를 가진 아이가 있다는 것은 물리적으로 불가능합니다.
정규분포의 꼬리가 끝없이 뻗어나가는 것은 극단적인 값이 아주 드물게 발생할 수 있다는 것을 나타내지만, 현실적인 데이터는 특정 범위 안에서만 분포합니다. 예를 들어, 1년생 아이들의 몸무게는 어떤 자연적인 한계를 가지고 있으며, 극단적인 값이 나오더라도 그것은 극히 작은 확률일 뿐, 무한대와 같은 값은 실제로 일어나지 않습니다.
따라서 정규분포의 꼬리가 무한하다는 것은 이론적인 개념일 뿐, 현실에서 무한대와 같은 값은 존재하지 않습니다.
물음 3) 정규분포의 평균은 꼭 0이어야 하는가?
☞ 정규분포에서 평균이 0일 필요는 없습니다. 정규분포의 평균은 그 데이터의 중심을 나타내는 값으로, 상황에 따라 다른 값을 가질 수 있습니다. 일반적으로 정규분포의 평균은 꼭 0일 필요는 없습니다. 특별히 평균이 0이고, 표준편차가 1인 정규분포를 표준 정규분포라고 합니다. 즉 표준 정규분포는 데이터의 중심이 0이고, 흩어진 정도가 표준편차 1로 나타납니다. 따라서 일반적인 정규분포는 평균이 0일 수도, 아닐 수도 있지만, 표준 정규분포에서는 평균이 0입니다.