데이터 분석에서 ‘중심 경향성’을 이해하는 것은 필수이다.
평균(Mean), 중앙값(Median), 모드(Mode)는 데이터를 요약하고 해석할 때 가장 기본이 되는 개념으로, 각각 다른 방식으로 데이터의 중심을 설명한다. 따라서 이 세 가지 지표는 숫자를 단순히 요약하는 수준을 넘어서, 데이터의 분포나 이상치 유무에 따라 전혀 다른 정보를 제공할 수 있다.
이 글에서는 각 지표의 정의, 특징, 예시를 통해 언제 어떤 지표를 써야 하는지까지 함께 살펴볼 예정이다.
평균 (Mean)
정의: 모든 데이터를 더한 뒤, 데이터 개수로 나눈 값
계산 방법:
- 예시: [1, 2, 3, 4, 5] → (1+2+3+4+5) ÷ 5 = 3
특징:
- 모든 데이터를 고려하기 때문에 정보 손실이 없다
- 하지만 **이상치(outlier)**에 민감하여 대표값으로서 왜곡될 수 있음
- 예: [1, 2, 3, 4, 100] → 평균은 22, 실제 중심과는 다름
사용 추천 상황:
- 데이터가 정규분포를 따를 때
- 이상치가 거의 없을 때
극단적인 데이터일 때 평균 값: 극단 값 100의 영향으로 오른쪽으로 치우침

중앙값 (Median)
정의: 데이터를 오름차순으로 정렬했을 때 가운데 위치하는 값
- 짝수 개일 경우: 중앙의 두 값을 평균하여 계산
- 예시:
- [1, 2, 3, 4, 5] → 중앙값 = 3
- [1, 2, 3, 4, 5, 6] → (3+4) ÷ 2 = 3.5
특징:
- 이상치의 영향을 거의 받지 않음
- 데이터가 한쪽으로 치우쳐 있거나 왜도(skewness)가 있는 경우 중심값을 가장 잘 반영
사용 추천 상황:
- 부동산 가격, 소득 분포 등 이상치가 많은 실생활 데이터
- 불균형한 분포를 가진 데이터
극단적인 데이터일 때 중앙값: 극단값에 영향을 거의 받지 않음

모드 (Mode)
정의: 데이터 내에서 가장 자주 등장하는 값
- 예시: [1, 2, 2, 3, 4] → 모드 = 2
특징:
- 범주형 데이터 분석에 효과적
- 하나 이상의 모드가 있을 수 있음 (예: 다봉 분포)
- 이상치 영향을 받지 않음
- 데이터의 ‘가장 일반적인 특성’을 나타냄
사용 추천 상황:
- 제품 구매 유형, 고객 선호도, 투표 결과 등
- 숫자가 아닌 문자/범주 데이터를 다룰 때
극단적인 데이터일 때 모드 값: 가장 자주 등장하는 값 2가 선택

세 지표의 차이점 요약
지표 | 특징 | 이상치 민감도 | 대표 사용 사례 |
---|---|---|---|
평균 | 전체 데이터 반영 | 높음 | 시험 성적, 센서 수치 |
중앙값 | 중앙값 기준 | 낮음 | 소득, 부동산 가격 |
모드 | 빈도 기준 | 없음 | 선호도, 범주 데이터 |
어떤 지표를 선택해야 할까?
데이터를 분석할 때 무조건 평균을 사용하는 것은 위험할 수 있다.
데이터의 특성과 분포, 목적에 따라 다른 지표가 더 정확한 통찰을 줄 수 있다.
- 정규분포형 데이터 → 평균
- 이상치 많은 실생활 데이터 → 중앙값
- 범주형 데이터 → 모드
데이터 사이언티스트라면, 이 세 가지 중심 경향성 지표를 자유자재로 선택하고 해석할 수 있어야 한다.