경제

상자 그림(Box Plot)이란?

개강한 공대생 2024. 9. 14. 20:43

상자 그림(Box Plot)은 주로 데이터의 분포와 극단값(outliers)을 쉽게 확인할 수 있고, 상자 그림은 사분위수로 만들어져 있다.

 

상자의 끝은 1사분위수(Q1)와 3사분위수(Q3) 위치를 나타낸다.

Q1 (첫 번째 사분위수) = 445

Q3 (세 번째 사분위수) = 525

상자 안에 있는 세로선은 중앙값(중위수, Q2)을 나타낸다.

Q2 (중앙값, 메디안이라고 부른다) = 475

 


상자 그림(Box Plot)에서 Outlier를 판별하는 기준은 다음과 같다.

1. IQR(Interquartile Range) 계산

IQR은 Q3 - Q1, 즉 3사분위수와 1사분위수의 차이다. 

여기서는 525 - 445 = 80이 된다.

 

2. Lower Limit (하한선)

하한선은 Q1에서 1.5배의 IQR을 뺀 값이다.

공식은 Q1 - 1.5 * IQR

여기서 445 - 1.5 * 80 = 445 - 120 = 325이 나온다.

즉, 325보다 작은 값은 이상치로 간주될 수 있다.

 

3. Upper Limit (상한선)

상한선은 Q3에 1.5배의 IQR을 더한 값이다.

공식은 Q3 + 1.5 * IQR

여기서 525 + 1.5 * 80 = 525 + 120 = 645

즉, 645보다 큰 값도 이상치로 간주될 수 있다.

 

아무튼 325 미만 645 초과인 값이 있으면 이상치가 있다고 할 수 있다.

 

 


상자 그림에서 나오는 수염(whiskers)에 대해 알아보자

 

수염은 상자 그림에서 상자 끝에서 가장 작은 값과 가장 큰 값으로 이어지는 선을 말한다.

이 선은 데이터 세트에서 이상치(outliers)로 간주되지 않는 값들까지 연결한다.

왼쪽 수염: Q1(첫 번째 사분위수, 445)에서 가장 작은 값(이 경우 425)까지 이어진다. 이 값은 하한선 안에 들어가니까 이상치가 아니다.

오른쪽 수염: Q3(세 번째 사분위수, 525)에서 가장 큰 값(이 경우 615)까지 이어진다. 이 값도 상한선 안에 들어가니까 역시 이상치가 아니다.

 

425는 이 데이터에서 가장 작은 값이지만 하한선(325)보다 크니까 이상치가 아니다.

615는 가장 큰 값이지만 상한선(645)보다 작으니까 이상치가 아니다.

 

결론적으로, 이 데이터에서는 이상치가 없고, 모든 값들이 수염 안에 잘 포함되어 있다.