globe 평균·중앙값·모드 차이 쉽게 이해하기 (예제 포함) AI Research, Data Science

평균·중앙값·모드 차이 쉽게 이해하기 (예제 포함)

Posted by

데이터 분석에서 ‘중심 경향성’을 이해하는 것은 필수이다.
평균(Mean), 중앙값(Median), 모드(Mode)는 데이터를 요약하고 해석할 때 가장 기본이 되는 개념으로, 각각 다른 방식으로 데이터의 중심을 설명한다. 따라서 이 세 가지 지표는 숫자를 단순히 요약하는 수준을 넘어서, 데이터의 분포나 이상치 유무에 따라 전혀 다른 정보를 제공할 수 있다.

이 글에서는 각 지표의 정의, 특징, 예시를 통해 언제 어떤 지표를 써야 하는지까지 함께 살펴볼 예정이다.

평균 (Mean)

정의: 모든 데이터를 더한 뒤, 데이터 개수로 나눈 값

계산 방법:

  • 예시: [1, 2, 3, 4, 5] → (1+2+3+4+5) ÷ 5 = 3

특징:

  • 모든 데이터를 고려하기 때문에 정보 손실이 없다
  • 하지만 **이상치(outlier)**에 민감하여 대표값으로서 왜곡될 수 있음
    • 예: [1, 2, 3, 4, 100] → 평균은 22, 실제 중심과는 다름

사용 추천 상황:

  • 데이터가 정규분포를 따를 때
  • 이상치가 거의 없을 때

극단적인 데이터일 때 평균 값: 극단 값 100의 영향으로 오른쪽으로 치우침

평균·중앙값·모드 차이 쉽게 이해하기: 평균

중앙값 (Median)

정의: 데이터를 오름차순으로 정렬했을 때 가운데 위치하는 값

  • 짝수 개일 경우: 중앙의 두 값을 평균하여 계산
  • 예시:
    • [1, 2, 3, 4, 5] → 중앙값 = 3
    • [1, 2, 3, 4, 5, 6] → (3+4) ÷ 2 = 3.5

특징:

  • 이상치의 영향을 거의 받지 않음
  • 데이터가 한쪽으로 치우쳐 있거나 왜도(skewness)가 있는 경우 중심값을 가장 잘 반영

사용 추천 상황:

  • 부동산 가격, 소득 분포 등 이상치가 많은 실생활 데이터
  • 불균형한 분포를 가진 데이터

극단적인 데이터일 때 중앙값: 극단값에 영향을 거의 받지 않음

평균·중앙값·모드 차이 쉽게 이해하기: 중앙값

모드 (Mode)

정의: 데이터 내에서 가장 자주 등장하는 값

  • 예시: [1, 2, 2, 3, 4] → 모드 = 2

특징:

  • 범주형 데이터 분석에 효과적
  • 하나 이상의 모드가 있을 수 있음 (예: 다봉 분포)
  • 이상치 영향을 받지 않음
  • 데이터의 ‘가장 일반적인 특성’을 나타냄

사용 추천 상황:

  • 제품 구매 유형, 고객 선호도, 투표 결과 등
  • 숫자가 아닌 문자/범주 데이터를 다룰 때

극단적인 데이터일 때 모드 값: 가장 자주 등장하는 값 2가 선택

평균·중앙값·모드 차이 쉽게 이해하기: 모드

세 지표의 차이점 요약

지표특징이상치 민감도대표 사용 사례
평균전체 데이터 반영높음시험 성적, 센서 수치
중앙값중앙값 기준낮음소득, 부동산 가격
모드빈도 기준없음선호도, 범주 데이터

📌 어떤 지표를 선택해야 할까?

데이터를 분석할 때 무조건 평균을 사용하는 것은 위험할 수 있다.
데이터의 특성과 분포, 목적에 따라 다른 지표가 더 정확한 통찰을 줄 수 있다.

  • 정규분포형 데이터 → 평균
  • 이상치 많은 실생활 데이터 → 중앙값
  • 범주형 데이터 → 모드

📈 데이터 사이언티스트라면, 이 세 가지 중심 경향성 지표를 자유자재로 선택하고 해석할 수 있어야 한다.


📚 연관 콘텐츠 추천

Leave a Reply

Your email address will not be published. Required fields are marked *