평균(Mean), 중앙값(Median), 모드(Mode)의 차이점: 데이터 사이언스의 필수 요소 이해하기

Posted by

평균 (Mean)

  • 정의: 데이터 집합의 합을 그 집합의 원소 개수로 나눈 값이다. 즉, 모든 데이터 값을 더한 후, 데이터의 수로 나누어 평균을 구한다.
  • 특징:
    • 평균은 데이터 집합의 중심 경향을 나타낸다.
    • 모든 데이터 값을 고려하기 때문에 이상치(outlier)의 영향을 많이 받는다. 즉, 매우 크거나 작은 값이 평균을 왜곡할 수 있다.
  • 예시: 데이터 집합 [1, 2, 3, 4, 5]의 평균은 (1+2+3+4+5)/5 = 3 으로 구할 수 있다.

중앙값 (Median)

  • 정의: 데이터를 크기 순으로 나열했을 때 중앙에 위치하는 값이다. 데이터 개수가 짝수일 경우 중앙에 있는 두 숫자의 평균을 중앙값으로 사용한다.
  • 특징:
    • 중앙값은 이상치에 덜 민감하며, 이상치가 있어도 전체 데이터의 중앙값에 영향을 덜 미친다.
    • 데이터 분포가 균일하지 않을 때 평균보다 더 좋은 중심 경향성의 지표가 될 수 있다.
  • 예시: 데이터 집합 [1, 2, 3, 4, 5]의 중앙값은 3이고, [1, 2, 3, 4, 5, 6]의 중앙값은 (3+4)/2 = 3.5 이다.

모드 (Mode)

  • 정의: 데이터 집합에서 가장 자주 나타나는 값이며, 데이터 집합에 가장 많이 등장하는 수치이다.
  • 특징:
    • 모드는 범주형 데이터에서 특히 유용하다.
    • 데이터 집합에 모드가 없거나 여러 개일 수도 있다.
    • 이상치의 영향을 받지 않으며, 데이터의 가장 일반적인 값을 나타낸다.
  • 예시: 데이터 집합 [1, 2, 2, 3, 4]에서 모드는 2이다.

이 세 가지 측정치는 데이터의 중심 경향성을 파악하는 데 있어 서로 다른 측면을 제공한다.

평균은 모든 데이터 값을 고려하는 반면, 중앙값은 이상치의 영향을 덜 받고, 모드는 가장 일반적인 데이터 값을 나타낸다. 따라서 데이터의 성격과 필요에 따라 이들 중 적절한 측정치를 선택하여 사용해야 한다.

Leave a Reply

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다