outlier size 이상치(outlier) 쉽게 찾고 처리하는 법 – 예제로 배우기 AI Research, Data Science

이상치(outlier) 쉽게 찾고 처리하는 법 – 예제로 배우기

Posted by

이상치(Outlier)“는 데이터 분석에서 자주 마주하게 되는 중요한 요소이다.
이는 다른 데이터 포인트들과 현저히 다른 값을 가지는 관측값으로, 데이터 수집 과정의 오류일 수도 있고 실제로 중요한 특성을 나타낼 수도 있다.

이 글에서는 이상치를 식별하는 다양한 방법과, 실제 분석에서 어떤 기준으로 이상치를 처리해야 하는지를 사례 중심으로 알아보고자 한다.


이상치란?

이상치란, 데이터 집합 내 다른 값들과 극단적으로 차이나는 데이터 포인트를 의미한다.

예를 들어, 대부분의 값이 40~60 사이인데 120이 포함되어 있다면 이는 통계적으로 이상치일 수 있다.


이상치 식별 방법

통계적 방법

  • Z-점수(Z-Score): 데이터 포인트의 Z-점수는 평균으로부터 얼마나 멀리 떨어져 있는지를 표준편차 단위로 나타내며, 일반적으로 Z-점수가 ±3 이상이면 이상치로 간주한다.
  • IQR(Interquartile Range): 데이터의 25% 지점(Q_1)과 75% 지점(Q_3) 사이의 범위(IQR = Q_3 - Q_1)를 사용한다.
    Q_1 - 1.5 \times IRQ 보다 작거나 Q_3 + 1.5 \times IRQ보다 큰 값은 이상치로 간주될 수 있다.
  • 위 방법들은 정규 분포를 따르는 데이터에 특히 효과적이다.

시각적 방법

  • 상자 그림(Box Plot): 데이터의 분포를 시각적으로 나타내며, IQR 밖의 데이터 포인트는 이상치로 표시된다.
  • 산점도(Scatter Plot): 데이터 포인트 간의 관계를 시각화하여 이상치를 식별할 수 있다.
이상치(Outlier)식별 방법
이상치(Outlier) 식별 방법

이상치 처리 방법

제거 (Remove)

  • 이상치가 데이터 오류나 적절하지 않은 값일 경우 제거한다. 그러나 이 방법은 유용한 정보의 손실을 초래하여 데이터의 표본 크기를 줄일 수 있으며, 이로 인해 통계적 검정력이 감소할 수 있다.

변환 (Transform)

  • 로그 변환: 데이터에 로그 변환을 적용하여 극단적인 값을 완화할 수 있다.
  • Winsorizing: 데이터의 극단적인 값을 상한값 또는 하한값으로 대체할 수 있다.

분리 분석 (Separate)

  • 이상치를 별도의 그룹으로 분리하여 분석할 수 있으며, 이상치가 데이터에 중요한 정보를 포함하고 있을 때 유용하다.

머신러닝 기반 접근

Isolation Forest

‘Isolation Forest’는 Regression Decision Tree를 기반으로 동작하며, 특히 이상치 탐지에 효과적인 알고리즘이다. 무작위로 선택된 속성을 기반으로 데이터 포인트를 격리한다.

장점단점
대규모 데이터셋에서 빠름무작위성으로 결과 변동 가능
구현이 간단하고 튜닝 쉬움분포에 민감할 수 있음
  • 작동 원리:
    • 이 알고리즘은 무작위로 특정 속성을 선택하고, 선택된 속성의 값 범위 내에서 무작위 분할 값을 생성한다.
    • 이 과정은 데이터 포인트를 격리할 때까지 반복된다.
    • 정상적인 데이터 포인트는 격리되기까지 더 많은 단계를 거치는 반면, 이상치는 더 적은 단계로 격리된다.
  • 장점:
    • 이상치를 빠르고 효율적으로 탐지할 수 있다.
    • 파라미터 조정이 상대적으로 간단하다.
    • 대규모 데이터셋에서도 빠르게 작동한다.
  • 단점:
    • 데이터의 구조나 분포에 따라 성능이 달라질 수 있다.
    • 무작위성에 기반하기 때문에 결과가 다소 불안정할 수 있다.
  • 활용
    • 대규모 데이터셋에서 이상치를 빠르게 탐지하는 데 유용하므로, 금융 사기 탐지, 네트워크 보안, 공장의 결함 제품 탐지 등 다양한 분야에서 활용된다.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

‘DBSCAN’은 밀도 기반의 군집화 알고리즘으로, 이상치 탐지에도 사용되고 있다.

장점단점
군집 모양/크기 제약 없음eps, min_samples 튜닝이 중요
노이즈에 강함밀도 불균일 데이터에선 성능 저하 가능
  • 작동 원리:
    • 데이터 포인트의 밀도를 기반으로 군집을 형성한다.
    • 각 데이터 포인트에서 설정된 거리 내에 설정된 최소 개수의 다른 포인트가 있을 경우, 해당 포인트는 핵심 포인트로 간주한다.
    • 핵심 포인트들이 서로 연결되어 군집을 형성하며, 이와 연결되지 않은 포인트는 이상치로 분류한다.
  • 장점:
    • 밀도 기반 접근으로 군집의 형태와 크기에 제한이 없다.
    • 모델이 두 개의 주요 파라미터(epsmin_samples)에 의존한다.
    • 노이즈와 이상치에 강하며, 노이즈를 자연스럽게 제거한다.
  • 단점:
    • 모든 변수의 거리 척도가 같은 중요도를 가질 때 가장 잘 작동합니다. 따라서 스케일링이 중요하다.
    • epsmin_samples 파라미터 선택이 결과에 큰 영향을 미치게 된다.
    • 데이터의 밀도가 일정하지 않은 경우 성능이 저하될 수 있다.
  • 활용
    • 복잡한 구조의 데이터에서 이상치를 탐지하는 데 유용하므로, 지리적 데이터 분석, 바이오인포매틱스, 이미지 분석 등에서 이상치를 탐지하고 군집화하는 데 사용된다.

결론

이상치는 오류일 수도 있지만, 중요한 패턴이나 이상 현상의 신호일 수 있다.

따라서 다음을 고려하여 전략을 수립해 보자!

고려 항목질문
데이터 품질수집 오류인가, 실제 변동성인가?
분석 목적평균 중심 분석인가, 예외 탐지가 중요한가?
적용 알고리즘이상치에 민감한가? 예: 회귀분석, 분류모델

📚 연관 추천 글

Leave a Reply

Your email address will not be published. Required fields are marked *