“이상치(Outlier)“는 데이터 분석에서 자주 마주하게 되는 중요한 요소이다.
이는 다른 데이터 포인트들과 현저히 다른 값을 가지는 관측값으로, 데이터 수집 과정의 오류일 수도 있고 실제로 중요한 특성을 나타낼 수도 있다.
이 글에서는 이상치를 식별하는 다양한 방법과, 실제 분석에서 어떤 기준으로 이상치를 처리해야 하는지를 사례 중심으로 알아보고자 한다.
이상치란?
이상치란, 데이터 집합 내 다른 값들과 극단적으로 차이나는 데이터 포인트를 의미한다.
예를 들어, 대부분의 값이 40~60 사이인데 120이 포함되어 있다면 이는 통계적으로 이상치일 수 있다.
이상치 식별 방법
통계적 방법
- Z-점수(Z-Score): 데이터 포인트의 Z-점수는 평균으로부터 얼마나 멀리 떨어져 있는지를 표준편차 단위로 나타내며, 일반적으로 Z-점수가 ±3 이상이면 이상치로 간주한다.
- IQR(Interquartile Range): 데이터의 25% 지점(
)과 75% 지점(
) 사이의 범위(
)를 사용한다.
보다 작거나
보다 큰 값은 이상치로 간주될 수 있다.
- 위 방법들은 정규 분포를 따르는 데이터에 특히 효과적이다.
시각적 방법
- 상자 그림(Box Plot): 데이터의 분포를 시각적으로 나타내며, IQR 밖의 데이터 포인트는 이상치로 표시된다.
- 산점도(Scatter Plot): 데이터 포인트 간의 관계를 시각화하여 이상치를 식별할 수 있다.

이상치 처리 방법
제거 (Remove)
- 이상치가 데이터 오류나 적절하지 않은 값일 경우 제거한다. 그러나 이 방법은 유용한 정보의 손실을 초래하여 데이터의 표본 크기를 줄일 수 있으며, 이로 인해 통계적 검정력이 감소할 수 있다.
변환 (Transform)
- 로그 변환: 데이터에 로그 변환을 적용하여 극단적인 값을 완화할 수 있다.
- Winsorizing: 데이터의 극단적인 값을 상한값 또는 하한값으로 대체할 수 있다.
분리 분석 (Separate)
- 이상치를 별도의 그룹으로 분리하여 분석할 수 있으며, 이상치가 데이터에 중요한 정보를 포함하고 있을 때 유용하다.
머신러닝 기반 접근
Isolation Forest
‘Isolation Forest’는 Regression Decision Tree를 기반으로 동작하며, 특히 이상치 탐지에 효과적인 알고리즘이다. 무작위로 선택된 속성을 기반으로 데이터 포인트를 격리한다.
장점 | 단점 |
---|---|
대규모 데이터셋에서 빠름 | 무작위성으로 결과 변동 가능 |
구현이 간단하고 튜닝 쉬움 | 분포에 민감할 수 있음 |
- 작동 원리:
- 이 알고리즘은 무작위로 특정 속성을 선택하고, 선택된 속성의 값 범위 내에서 무작위 분할 값을 생성한다.
- 이 과정은 데이터 포인트를 격리할 때까지 반복된다.
- 정상적인 데이터 포인트는 격리되기까지 더 많은 단계를 거치는 반면, 이상치는 더 적은 단계로 격리된다.
- 장점:
- 이상치를 빠르고 효율적으로 탐지할 수 있다.
- 파라미터 조정이 상대적으로 간단하다.
- 대규모 데이터셋에서도 빠르게 작동한다.
- 단점:
- 데이터의 구조나 분포에 따라 성능이 달라질 수 있다.
- 무작위성에 기반하기 때문에 결과가 다소 불안정할 수 있다.
- 활용
- 대규모 데이터셋에서 이상치를 빠르게 탐지하는 데 유용하므로, 금융 사기 탐지, 네트워크 보안, 공장의 결함 제품 탐지 등 다양한 분야에서 활용된다.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
‘DBSCAN’은 밀도 기반의 군집화 알고리즘으로, 이상치 탐지에도 사용되고 있다.
장점 | 단점 |
---|---|
군집 모양/크기 제약 없음 | eps, min_samples 튜닝이 중요 |
노이즈에 강함 | 밀도 불균일 데이터에선 성능 저하 가능 |
- 작동 원리:
- 데이터 포인트의 밀도를 기반으로 군집을 형성한다.
- 각 데이터 포인트에서 설정된 거리 내에 설정된 최소 개수의 다른 포인트가 있을 경우, 해당 포인트는 핵심 포인트로 간주한다.
- 핵심 포인트들이 서로 연결되어 군집을 형성하며, 이와 연결되지 않은 포인트는 이상치로 분류한다.
- 장점:
- 밀도 기반 접근으로 군집의 형태와 크기에 제한이 없다.
- 모델이 두 개의 주요 파라미터(
eps
와min_samples
)에 의존한다. - 노이즈와 이상치에 강하며, 노이즈를 자연스럽게 제거한다.
- 단점:
- 모든 변수의 거리 척도가 같은 중요도를 가질 때 가장 잘 작동합니다. 따라서 스케일링이 중요하다.
eps
와min_samples
파라미터 선택이 결과에 큰 영향을 미치게 된다.- 데이터의 밀도가 일정하지 않은 경우 성능이 저하될 수 있다.
- 활용
- 복잡한 구조의 데이터에서 이상치를 탐지하는 데 유용하므로, 지리적 데이터 분석, 바이오인포매틱스, 이미지 분석 등에서 이상치를 탐지하고 군집화하는 데 사용된다.
결론
이상치는 오류일 수도 있지만, 중요한 패턴이나 이상 현상의 신호일 수 있다.
따라서 다음을 고려하여 전략을 수립해 보자!
고려 항목 | 질문 |
---|---|
데이터 품질 | 수집 오류인가, 실제 변동성인가? |
분석 목적 | 평균 중심 분석인가, 예외 탐지가 중요한가? |
적용 알고리즘 | 이상치에 민감한가? 예: 회귀분석, 분류모델 |