표준편차 (Standard Deviation)
정의
- 표준편차는 분산의 제곱근으로, 데이터의 훝어진 정도를 원래 데이터 단위로 표현한 지표이다.
- 해석이 보다 직관적이고 현실적인 장점이 있다.
수학적 표현:
표준편차가 알려주는 것
- 단위가 동일: 예를 들어 키를 cm로 측정했다면, 표준편차도 cm 단위로 표현됨
- 값이 클수록: 데이터가 평균에서 멀리 퍼져 있음
- 값이 작을수록: 대부분의 데이터가 평균에 가깝게 모여 있음
- 이상치에 민감: 특이한 값이 하나만 있어도 전체 표준편차가 크게 바뀔 수 있음.

분산 (Variance)
정의
- 분산은 데이터가 평균으로부터 얼마나 퍼져 있는지 측정하는 지표이다.
- 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 제곱하여 평균낸 값이다.
수학적 표현:
- 여기서
는 각 데이터 포인트,
는 평균,
은 데이터 포인트의 수이다.
분산이 알려주는 것
- 데이터 포인트들이 평균에서 얼마나 퍼져 있는지를 나타낸다.
- 분산이 클수록: 데이터가 평균으로부터 멀리 떨어져 있고, 변동성이 크다는 의미
- 분산이 작을수록: 대부분의 데이터가 평균 근처에 모여 있고, 일정하게 유지되고 있음

표준편차 vs 분산 : 어떤 차이가 있을까?
항목 | 표준편차 (Standard Deviation) | 분산 (Variance) |
---|---|---|
계산 방식 | 제곱값의 평균 | 분산의 제곱근제곱값의 평균 |
단위 | 원래 단위의 제곱 | 원래 단위원래 단위의 제곱 |
해석 | 직관적으로 이해 쉬움 | 수학적으로 중요 |
활용 | 데이터의 산포도 파악 시 유용 | 회귀분석, 분산분석 등에서 사용 |
요약
- 표준편차는 그 결과를 사람이 해석하기 쉬운 형태(원래 단위)로 바꾼 값
- 분산은 데이터가 평균으로부터 얼마나 퍼졌는지 수학적으로 정밀하게 계산한 값
왜 표준편차와 분산이 중요한가?
이 두 지표는 단순한 수치가 아니라, 다음과 같은 실무적 의미를 가진다
- 데이터의 안정성 판단: 어떤 값들이 일정하게 유지되는지, 급격한 변화가 있는지 확인 가능
- 이상치 탐지 기준 설정: 평균에서 ±2표준편차 이상 벗어나면 ‘비정상 데이터’로 간주 가능
- 예측 모델의 신뢰도 판단: 분산이 작을수록 예측 모델의 성능도 안정적일 확률이 높음
- 투자 리스크 평가: 금융 데이터 분석 시 리스크의 크기를 표준편차로 표현
표준편차와 분산은 데이터의 퍼짐 정도, 즉 ‘변동성’을 이해하는 데 꼭 필요한 통계 도구이다.
- 표준편차는 직관적으로 해석 가능한 표현
- 분산은 정밀한 수학적 지표
- 데이터가 얼마나 일관되고 예측 가능한지를 판단하는 기준이 된다.
데이터 사이언스, 통계 분석, 머신러닝, 실험 설계에 이르기까지
표준편차와 분산은 거의 모든 데이터 기반 의사결정의 핵심 도구이므로 반드시 이해하고 숙지해두자.