ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 평균, 중앙값, 최빈값, 그리고 백분위수
    경제 2024. 9. 7. 20:57

    Mean: 평균값이다. 다 더해서 개수로 나누는 거

     

    Median: 중앙값인데, 데이터를 크기 순으로 나열했을 때 딱 가운데 오는 값이다.(Median Filtering이 생각난다)

    극단적인 값(이상치, outliers)가 있을 때 평균보다 중앙값을 더 신뢰할 수 있다.

    예를 들어, 부자 한 명이 엄청나게 많은 돈을 벌고 있는 집단에서는 평균을 쓰면 부자가 전체 평균을 확 끌어올려서 나머지 사람들이 모두 부자인 것처럼 보이기 때문이다 ㅋㅋ

    하지만 중앙값을 쓰면 그 극단적인 값을 무시하고 전체의 중간 위치를 보여준다.

    근데 만약 짝수개의 데이터가 있으면.. 어떤 값이 중앙값이 될까?

    만약 4개의 값이 있다면 2번째, 3번째 값 중 어떤 값이 중앙값이 될까?

    데이터셋이 1, 2, 3, 4라고 해보자.

    여기서 가운데에 있는 두 값은 23이다.

    이 두 값의 평균을 구하면 (2 + 3) / 2 = 2.5가 되기 때문에, 중앙값은 2.5가 된다.

     

    Mode: 최빈값, 제일 많이 나온 값이다. 

    그런데 데이터에서 두 개 이상의 값이 똑같이 자주 나타날 수도 있어서 부르는 방법이 두 가지로 나뉜다.

    데이터에 두 개의 최빈값이 있을 때 Bimodal이라고 부른다. Bi를 보면 알겠지만 두 개의 모드가 있다는 거다.
    두 개 이상의 최빈값이 있으면 Multimodal이라고 부른다.

    예를 들어 1, 1, 2, 2, 3, 3, 4, 4 이런 상황을 Multimodal이라고 부른다.

     

    Percentiles: 백분위수인데, 데이터를 100개의 구간으로 나눴을 때 특정 위치에 있는 값이다.

    만약 내가 90번째 백분위에 속한다고 하면, 나보다 90%의 사람들이 그 값 이하라는 것이다.

    나보다 높은 사람은 10%만 남은거다.

    Percentiles를 계산하는 방법은 다음과 같다.

    1. 먼저 데이터를 작은 것부터 큰 순서대로 정렬해야 한다. 그래야 중앙값이든 백분위수든 제대로 구할 수 있다.

    2. 백분위수를 구할 위치(몇 번째인지)를 계산해야 하는데, 그 위치를 i로 표시한다. 공식은 i = (p/100) * n이다. 

    여기서 p는 구하려는 백분위수(예: 90th percentile), n은 데이터의 총 개수다.

    예를 들어, 90번째 백분위수를 구하려면 p = 90이 된다.

    3. 만약 i가 정수가 아니면(소수점이 있으면), 올림해야 한다. 그리고 그 위치에 있는 값을 백분위수로 사용하면 된다. 예를 들어 i = 3.44번째 값을 가져오는 거다.

    4. 만약 i가 딱 정수라면(예: 3), i번째 값과 i+1번째 값평균을 구한다. 예를 들어, i = 3이면 3번째 값과 4번째 값을 더해서 2로 나누면 된다. 그러면 그게 pth percentile가 되는 거다.

     

    Quartiles: 이건 데이터를 네 부분으로 나눌 때 각 부분의 경계 값이다. 

    25번째 백분위수(25th Percentile)를 First Quartile (Q1)이라고 부르고

    50번째 백분위수(50th Percentile)를 Second Quartile (Q2)이라고 부르는데 이게 바로 중앙값이다.

    75번째 백분위수(75th Percentile)를 Third Quartile (Q3)라고 부른다.

     

     

     

    아무튼 이런 값이 표본에서 나온 값이면 sample statistics이고, 이걸 가지고 모집단의 값을 예측하는 게 population parameters다. 

    sample statistics로 population parameter를 추정할 때 그 추정치Point estimator라고 부른다.

     

     

     

    '경제' 카테고리의 다른 글

    Skewness(왜도)란?  (0) 2024.09.12
    변동성(혹은 분산)을 측정하는 방법  (0) 2024.09.07
    탐색적 데이터 분석(Exploratory Data Analysis)  (0) 2024.09.07
    데이터에 관하여-3  (4) 2024.09.02
    데이터에 관하여-2  (0) 2024.09.02
Designed by Tistory.