이상치(outlier) 쉽게 찾고 처리하는 법

“이상치(Outlier)“는 데이터 분석에서 자주 마주하게 되는 중요한 요소이다.
이는 다른 데이터 포인트들과 현저히 다른 값을 가지는 관측값으로, 데이터 수집 과정의 오류일 수도 있고 실제로 중요한 특성을 나타낼 수도 있다.

이 글에서는 이상치를 식별하는 다양한 방법과, 실제 분석에서 어떤 기준으로 이상치를 처리해야 하는지를 사례 중심으로 알아보고자 한다.

Table of Contents　

이상치란?

이상치란, 데이터 집합 내 다른 값들과 극단적으로 차이나는 데이터 포인트를 의미한다.

예를 들어, 대부분의 값이 40~60 사이인데 120이 포함되어 있다면 이는 통계적으로 이상치일 수 있다.

Z-점수_(Z-Score): 데이터 포인트의 Z-점수는 평균으로부터 얼마나 멀리 떨어져 있는지를 표준편차 단위로 나타내며, 일반적으로 Z-점수가 ±3 이상이면 이상치로 간주한다.
IQR_{(Interquartile Range)}: 데이터의 25% 지점( $Q_1$ )과 75% 지점( $Q_3$ ) 사이의 범위( $IQR = Q_3 - Q_1$ )를 사용한다.
$Q_1 - 1.5 \times IRQ$ 보다 작거나 $Q_3 + 1.5 \times IRQ$ 보다 큰 값은 이상치로 간주될 수 있다.
위 방법들은 정규 분포를 따르는 데이터에 특히 효과적이다.

이상치가 데이터 오류나 적절하지 않은 값일 경우 제거한다. 그러나 이 방법은 유용한 정보의 손실을 초래하여 데이터의 표본 크기를 줄일 수 있으며, 이로 인해 통계적 검정력이 감소할 수 있다.

‘Isolation Forest’는 Regression Decision Tree를 기반으로 동작하며, 특히 이상치 탐지에 효과적인 알고리즘이다. 무작위로 선택된 속성을 기반으로 데이터 포인트를 격리한다.

장점	단점
대규모 데이터셋에서 빠름	무작위성으로 결과 변동 가능
구현이 간단하고 튜닝 쉬움	분포에 민감할 수 있음

작동 원리:
- 이 알고리즘은 무작위로 특정 속성을 선택하고, 선택된 속성의 값 범위 내에서 무작위 분할 값을 생성한다.
- 이 과정은 데이터 포인트를 격리할 때까지 반복된다.
- 정상적인 데이터 포인트는 격리되기까지 더 많은 단계를 거치는 반면, 이상치는 더 적은 단계로 격리된다.
장점:
- 이상치를 빠르고 효율적으로 탐지할 수 있다.
- 파라미터 조정이 상대적으로 간단하다.
- 대규모 데이터셋에서도 빠르게 작동한다.
단점:
- 데이터의 구조나 분포에 따라 성능이 달라질 수 있다.
- 무작위성에 기반하기 때문에 결과가 다소 불안정할 수 있다.
활용
- 대규모 데이터셋에서 이상치를 빠르게 탐지하는 데 유용하므로, 금융 사기 탐지, 네트워크 보안, 공장의 결함 제품 탐지 등 다양한 분야에서 활용된다.

‘DBSCAN’은 밀도 기반의 군집화 알고리즘으로, 이상치 탐지에도 사용되고 있다.

장점	단점
군집 모양/크기 제약 없음	eps, min_samples 튜닝이 중요
노이즈에 강함	밀도 불균일 데이터에선 성능 저하 가능

작동 원리:
- 데이터 포인트의 밀도를 기반으로 군집을 형성한다.
- 각 데이터 포인트에서 설정된 거리 내에 설정된 최소 개수의 다른 포인트가 있을 경우, 해당 포인트는 핵심 포인트로 간주한다.
- 핵심 포인트들이 서로 연결되어 군집을 형성하며, 이와 연결되지 않은 포인트는 이상치로 분류한다.
장점:
- 밀도 기반 접근으로 군집의 형태와 크기에 제한이 없다.
- 모델이 두 개의 주요 파라미터(eps와 min_samples)에 의존한다.
- 노이즈와 이상치에 강하며, 노이즈를 자연스럽게 제거한다.
단점:
- 모든 변수의 거리 척도가 같은 중요도를 가질 때 가장 잘 작동합니다. 따라서 스케일링이 중요하다.
- eps와 min_samples 파라미터 선택이 결과에 큰 영향을 미치게 된다.
- 데이터의 밀도가 일정하지 않은 경우 성능이 저하될 수 있다.
활용
- 복잡한 구조의 데이터에서 이상치를 탐지하는 데 유용하므로, 지리적 데이터 분석, 바이오인포매틱스, 이미지 분석 등에서 이상치를 탐지하고 군집화하는 데 사용된다.

이상치는 오류일 수도 있지만, 중요한 패턴이나 이상 현상의 신호일 수 있다.

따라서 다음을 고려하여 전략을 수립해 보자!