ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 변동성(혹은 분산)을 측정하는 방법
    경제 2024. 9. 7. 22:44

    평균 같은 것만으로는 데이터가 어떻게 퍼져 있는지 알 수 없으니 데이터가 얼마나 흩어져 있는지 알려주는 방법을 알아야 한다.

    그런 방법들은 아래와 같다.

     

    Range: 데이터에서 가장 큰 값과 가장 작은 값의 차이를 말한다. 제일 간단한 변동성 측정 방법이다. 

     

    Interquartile Range (IQR): 제1사분위수(Q1)와 제3사분위수(Q3)의 차이다. 즉, 데이터 중간 50%가 어디에 몰려 있는지를 보여주는 거다.

    극단적인 값(이상치)의 영향을 덜 받으니 많이 쓰인다.

     

    Variance(분산): 각 데이터가 평균에서 얼마나 떨어져 있는지를 계산한 값이다. 평균과의 차이(편차)를 제곱해서 다 더하고, 데이터 개수로 나눈 값이다. 

    분산이 크면 데이터가 많이 퍼져 있는 거고, 작으면 덜 퍼져 있다는 뜻이다.

    왜 제곱하냐면, 편차는 양수나 음수가 될 수 있는데, 그냥 더하면 서로 상쇄돼버리기 때문이다 ㅋㅋ 그래서 제곱을 해서 양수로 만들고 더하는 거다.

     

     

    Standard Deviation(표준편차): 분산을 다시 제곱근을 씌운 값이다. 단위가 원래 데이터랑 같아져서 해석하기가 더 쉽다. 표준편차가 클수록 데이터가 널리 퍼져 있는 거고, 작을수록 평균 근처에 몰려 있다는 의미다.

     

    Coefficient of Variation (변동계수): 표준편차(Standard Deviation)가 평균에 비해 얼마나 큰지를 나타내는 지표다. 

    COV는 단위에 상관없이 다른 데이터 집합들을 비교할 수 있게 해준다. 

    예를 들어, 성적 변동과 물가 변동을 비교하려고 하면 단위가 다르다. 

    성적은 점수로 표현되고, 물가는 가격이나 퍼센트로 나타난다.

    그래서 단순히 표준편차분산으로 비교하려면 단위가 달라서 직접적으로 비교하기가 힘들다.

    평균 성적이 80점이고, 표준편차가 10점이라고 해보자

    그러면 평균 성적 대비 변동성은 12.5%(10/80*100)다.

    이번엔 평균 물가가 1,000원이고, 표준편차가 50원이라고 해보자

    그러면 평균 물가 대비 변동성은 5%다(50/1000*100)

    이제 보면, 성적이랑 물가는 단위가 완전 다르지만, COV를 통해 두 변동성을 직접 비교할 수 있게 된다.

    적 변동은 12.5%, 물가 변동은 5%니까 성적의 변동이 물가 변동보다 더 크다는 걸 알 수 있다.

    즉, COV는 서로 다른 단위의 데이터들도 변동성을 비율로 계산해서 쉽게 비교할 수 있게 해주는 거다.

    '경제' 카테고리의 다른 글

    Z-Score이란?  (0) 2024.09.12
    Skewness(왜도)란?  (0) 2024.09.12
    평균, 중앙값, 최빈값, 그리고 백분위수  (0) 2024.09.07
    탐색적 데이터 분석(Exploratory Data Analysis)  (0) 2024.09.07
    데이터에 관하여-3  (4) 2024.09.02
Designed by Tistory.