평균 (Mean)
- 정의: 데이터 집합의 합을 그 집합의 원소 개수로 나눈 값이다. 즉, 모든 데이터 값을 더한 후, 데이터의 수로 나누어 평균을 구한다.
- 특징:
- 평균은 데이터 집합의 중심 경향을 나타낸다.
- 모든 데이터 값을 고려하기 때문에 이상치(outlier)의 영향을 많이 받는다. 즉, 매우 크거나 작은 값이 평균을 왜곡할 수 있다.
- 예시: 데이터 집합 [1, 2, 3, 4, 5]의 평균은 (1+2+3+4+5)/5 = 3 으로 구할 수 있다.
중앙값 (Median)
- 정의: 데이터를 크기 순으로 나열했을 때 중앙에 위치하는 값이다. 데이터 개수가 짝수일 경우 중앙에 있는 두 숫자의 평균을 중앙값으로 사용한다.
- 특징:
- 중앙값은 이상치에 덜 민감하며, 이상치가 있어도 전체 데이터의 중앙값에 영향을 덜 미친다.
- 데이터 분포가 균일하지 않을 때 평균보다 더 좋은 중심 경향성의 지표가 될 수 있다.
- 예시: 데이터 집합 [1, 2, 3, 4, 5]의 중앙값은 3이고, [1, 2, 3, 4, 5, 6]의 중앙값은 (3+4)/2 = 3.5 이다.
모드 (Mode)
- 정의: 데이터 집합에서 가장 자주 나타나는 값이며, 데이터 집합에 가장 많이 등장하는 수치이다.
- 특징:
- 모드는 범주형 데이터에서 특히 유용하다.
- 데이터 집합에 모드가 없거나 여러 개일 수도 있다.
- 이상치의 영향을 받지 않으며, 데이터의 가장 일반적인 값을 나타낸다.
- 예시: 데이터 집합 [1, 2, 2, 3, 4]에서 모드는 2이다.
이 세 가지 측정치는 데이터의 중심 경향성을 파악하는 데 있어 서로 다른 측면을 제공한다.
평균은 모든 데이터 값을 고려하는 반면, 중앙값은 이상치의 영향을 덜 받고, 모드는 가장 일반적인 데이터 값을 나타낸다. 따라서 데이터의 성격과 필요에 따라 이들 중 적절한 측정치를 선택하여 사용해야 한다.