경제

Outlier란?

개강한 공대생 2024. 9. 14. 20:31

Outlier란 데이터 세트에서 너무 크거나 너무 작은 값을 말한다.

쉽게 말하면, 평범한 데이터들이랑 비교했을 때 확 튀는 값들이다.

 

outlier를 찾는 방법 중 하나는 z-점수를 사용하는 건데, z-점수가 -3보다 작거나 +3보다 큰 값은 보통 outlier로 간주된다고 한다.

 

Outlier는 몇 가지 이유로 발생할 수 있다.

1. 잘못 기록된 데이터일 수 있다. 

2. 데이터 세트에 잘못 포함된 값일 수도 있다. 

3. 하지만 가끔은 그냥 그 데이터 세트에 정상적으로 포함된 값일 수도 있다. 

 

아무리 특정 데이터가 극단적인 값처럼 보여도 z-점수가 절대값 3을 넘지 않으면 outlier로 취급되지 않는다.