variance and standard deviation in a dataset size 분산(Variance)과 표준편차(Standard Deviation)가 제공하는 정보: 데이터 사이언스의 필수 요소 이해하기 AI Research, Data Science

분산(Variance)과 표준편차(Standard Deviation)가 제공하는 정보: 데이터 사이언스의 필수 요소 이해하기

Posted by

분산 (Variance)

  • 정의: 분산은 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지 측정하는 지표이다. 구체적으로, 각 데이터 포인트와 평균과의 차이를 제곱한 후, 이를 평균내어 계산한다.
  • 수학적 표현:
    \text{Variance} = \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}
    여기서 x_i​는 각 데이터 포인트, \mu는 평균, N은 데이터 포인트의 수이다.
  • 제공하는 정보:
    • 데이터 포인트들이 평균에서 얼마나 퍼져 있는지를 나타낸다.
    • 분산이 큰 경우, 데이터 포인트들이 평균으로부터 멀리 퍼져 있음을 의미한다.
    • 분산이 작은 경우, 데이터가 평균 근처에 밀집해 있음을 나타낸다.
image 3 분산(Variance)과 표준편차(Standard Deviation)가 제공하는 정보: 데이터 사이언스의 필수 요소 이해하기 AI Research, Data Science
평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미함.(Source: Wikipedia)

표준편차 (Standard Deviation)

  • 정의: 표준편차는 분산의 제곱근으로, 데이터가 평균으로부터 얼마나 흩어져 있는지를 나타내는 지표이다. 분산과 마찬가지로 데이터의 분포도를 나타내지만, 원래 데이터와 같은 단위를 사용하여 해석하기 쉽다.
  • 수학적 표현:
    \text{Standard Deviation} = \sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}
  • 제공하는 정보:
    • 데이터의 분포도를 원래 데이터의 단위로 이해할 수 있게 해준다.
      예를 들어, 데이터가 센티미터(cm) 단위로 측정되었다면, 표준편차도 cm 단위로 표현된다.
    • 평균값 주변에 데이터가 얼마나 집중되어 있는지를 나타내며, 이상치의 영향을 받을 수 있다.
    • 표준편차가 큰 경우, 데이터 포인트들이 평균에서 멀리 퍼져 있음을 의미하고, 작은 경우 데이터가 평균에 가깝게 집중되어 있음을 나타낸다.
image 2 분산(Variance)과 표준편차(Standard Deviation)가 제공하는 정보: 데이터 사이언스의 필수 요소 이해하기 AI Research, Data Science
각 밴드의 너비가 1 표준편차인 정규분포의 구상(Source: Wikipedia)

분산과 표준편차는 데이터의 변동성 또는 흩어진 정도를 수치적으로 나타내는 중요한 통계적 측정 도구이다.
분산은 데이터의 퍼짐 정도를 원래 데이터의 제곱 단위로 제공하고, 표준편차는 원래 데이터의 단위로 퍼짐 정도를 이해하기 쉽게 표현한다. 이 두 지표는 데이터가 얼마나 다양한지, 예측 가능한 범위 내에서 얼마나 변동하는지를 이해하는 데 필수적이라 할 수 있다.

Leave a Reply

Your email address will not be published. Required fields are marked *