-
Chebyshev's Theorem(체비셰프의 정리)경제 2024. 9. 14. 19:44
체비셰프의 정리는 데이터가 평균에서 얼마나 떨어져 있는지를 알려주는 거다.
특히, z 표준편차만큼 떨어진 범위 안에 최소한 몇 퍼센트의 데이터가 들어오는지 보장해준다.
더 쉽게 풀어보면
데이터의 최소 (1 - 1/z²) 비율이 평균으로부터 z 표준편차 이내에 포함된다.
z는 1보다 큰 값이다.
예를 들어, z가 2일 때는
즉, 최소한 75%의 데이터가 평균에서 2개의 표준편차 안에 포함된다는 거다.
중요한 건 이 공식을 통해 데이터가 평균에 얼마나 가까이 몰려 있는지를 대략적으로 알 수 있다는 거다.
응용을 해보자
평균 점수는 70점이고, 표준편차는 5점, 내가 구해야 할 건, 60점에서 80점 사이에 몇 명의 학생이 있는지다.
60점에서 80점에 대한 z-score를 각각 계산해야 한다.
60점의 z-score 계산
60점은 평균보다 2 표준편차 아래에 있는 값이다.
80점의 z-score 계산
80점은 평균보다 2 표준편차 위에 있는 값이다.
이제 체비셰프의 정리를 적용해보자
체비셰프의 정리에 따르면, 평균에서 2개의 표준편차 안에 있는 값들의 비율은 최소한
즉, 최소 75%의 데이터가 평균에서 2 표준편차 이내에 포함된다.
여기서는 60점에서 80점이 그 범위에 해당한다.
이제 학생수를 구해보자
100명의 학생 중에서 최소 75%가 이 범위에 포함되니까
100 * 0.75 = 75
따라서 최소 75명의 학생이 60점과 80점 사이에 속하는 점수를 가지고 있다.
체비셰프의 정리로 z값이 달라질 때 데이터를 얼마나 포함하는지 알아보자
체비셰프의 정리에 따르면, 평균에서 z 표준편차 이내에 포함된 데이터의 최소 비율을 구할 수 있다.
z값이 커질수록 더 많은 데이터가 평균 주변에 몰려 있는 거고, 최소한 몇 퍼센트나 포함되는지 알 수 있다.
아까의 응용을 예로 들면,
z가 2였을 때 최소 75% 학생이 그 범위에 들었고,
z가 3이면 최소 89% 학생이 그 범위에 들 것이다.
z가 4라면 최소 94% 학생이 그 범위에 든다.
쉽게 말하면, z값이 클수록 더 많은 데이터가 평균 근처에 몰려 있다는 뜻이다.
이제 또 다른 문제 상황을 알아보자
평균 임대료 = 490.80
표준편차 = 54.74
여기서 z=1.5z = 1.5라고 했을 때, 체비셰프의 정리를 사용해 최소한 몇 퍼센트의 데이터가 평균으로부터 1.5 표준편차 이내에 포함되는지를 구해보자.
쳬비셰프의 공식을 이용해 z 표준편차 이내에 포함된 데이터의 비율을 구해보면
최소 56%의 데이터가 평균에서 1.5 표준편차 이내에 들어간다는 거다.
이제 평균에서 1.5 표준편차 이내의 범위를 알아야 한다.
특정 범위를 알아야 더 정확히 눈에 들어오지 않겠는가?
하한은 490.80−1.5×54.74=490.80−82.11=409
상한은 490.80+1.5×54.74=490.80+82.11=573
그래서, 409에서 573 사이에 최소 56%의 임대료 데이터가 들어간다는 결론이 나온다.
'경제' 카테고리의 다른 글
Outlier란? (0) 2024.09.14 Empirical Rule (경험적 규칙) (0) 2024.09.14 Z-Score이란? (0) 2024.09.12 Skewness(왜도)란? (0) 2024.09.12 변동성(혹은 분산)을 측정하는 방법 (0) 2024.09.07