경제
Outlier란?
개강한 공대생
2024. 9. 14. 20:31
Outlier란 데이터 세트에서 너무 크거나 너무 작은 값을 말한다.
쉽게 말하면, 평범한 데이터들이랑 비교했을 때 확 튀는 값들이다.
outlier를 찾는 방법 중 하나는 z-점수를 사용하는 건데, z-점수가 -3보다 작거나 +3보다 큰 값은 보통 outlier로 간주된다고 한다.
Outlier는 몇 가지 이유로 발생할 수 있다.
1. 잘못 기록된 데이터일 수 있다.
2. 데이터 세트에 잘못 포함된 값일 수도 있다.
3. 하지만 가끔은 그냥 그 데이터 세트에 정상적으로 포함된 값일 수도 있다.
아무리 특정 데이터가 극단적인 값처럼 보여도 z-점수가 절대값 3을 넘지 않으면 outlier로 취급되지 않는다.