λΆ„μ‚°(Variance)κ³Ό ν‘œμ€€νŽΈμ°¨(Standard Deviation)κ°€ μ œκ³΅ν•˜λŠ” 정보: 데이터 μ‚¬μ΄μ–ΈμŠ€μ˜ ν•„μˆ˜ μš”μ†Œ μ΄ν•΄ν•˜κΈ°

Posted by

λΆ„μ‚° (Variance)

  • μ •μ˜: 뢄산은 데이터가 ν‰κ· μœΌλ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ 멀리 λ–¨μ–΄μ Έ μžˆλŠ”μ§€ μΈ‘μ •ν•˜λŠ” μ§€ν‘œμ΄λ‹€. ꡬ체적으둜, 각 데이터 ν¬μΈνŠΈμ™€ ν‰κ· κ³Όμ˜ 차이λ₯Ό μ œκ³±ν•œ ν›„, 이λ₯Ό 평균내어 κ³„μ‚°ν•œλ‹€.
  • μˆ˜ν•™μ  ν‘œν˜„:
    \text{Variance} = \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}
    μ—¬κΈ°μ„œ x_iβ€‹λŠ” 각 데이터 포인트, \muλŠ” 평균, N은 데이터 포인트의 μˆ˜μ΄λ‹€.
  • μ œκ³΅ν•˜λŠ” 정보:
    • 데이터 ν¬μΈνŠΈλ“€μ΄ ν‰κ· μ—μ„œ μ–Όλ§ˆλ‚˜ 퍼져 μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚Έλ‹€.
    • 뢄산이 큰 경우, 데이터 ν¬μΈνŠΈλ“€μ΄ ν‰κ· μœΌλ‘œλΆ€ν„° 멀리 퍼져 μžˆμŒμ„ μ˜λ―Έν•œλ‹€.
    • 뢄산이 μž‘μ€ 경우, 데이터가 평균 κ·Όμ²˜μ— 밀집해 μžˆμŒμ„ λ‚˜νƒ€λ‚Έλ‹€.
평균은 κ°™μ§€λ§Œ 뢄산은 λ‹€λ₯Έ 두 ν™•λ₯  뢄포. 빨간색 λΆ„ν¬λŠ” 100의 평균값과 100의 뢄산값을 가지고, νŒŒλž€μƒ‰ λΆ„ν¬λŠ” 100의 ν™•λ₯ κ°’κ³Ό 2500의 뢄산값을 가진닀. SDλŠ” ν‘œμ€€νŽΈμ°¨λ₯Ό μ˜λ―Έν•¨.(Source: Wikipedia)

ν‘œμ€€νŽΈμ°¨ (Standard Deviation)

  • μ •μ˜: ν‘œμ€€νŽΈμ°¨λŠ” λΆ„μ‚°μ˜ 제곱근으둜, 데이터가 ν‰κ· μœΌλ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ 흩어져 μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œμ΄λ‹€. λΆ„μ‚°κ³Ό λ§ˆμ°¬κ°€μ§€λ‘œ λ°μ΄ν„°μ˜ 뢄포도λ₯Ό λ‚˜νƒ€λ‚΄μ§€λ§Œ, μ›λž˜ 데이터와 같은 λ‹¨μœ„λ₯Ό μ‚¬μš©ν•˜μ—¬ ν•΄μ„ν•˜κΈ° 쉽닀.
  • μˆ˜ν•™μ  ν‘œν˜„:
    \text{Standard Deviation} = \sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}
  • μ œκ³΅ν•˜λŠ” 정보:
    • λ°μ΄ν„°μ˜ 뢄포도λ₯Ό μ›λž˜ λ°μ΄ν„°μ˜ λ‹¨μœ„λ‘œ 이해할 수 있게 ν•΄μ€€λ‹€.
      예λ₯Ό λ“€μ–΄, 데이터가 μ„Όν‹°λ―Έν„°(cm) λ‹¨μœ„λ‘œ μΈ‘μ •λ˜μ—ˆλ‹€λ©΄, ν‘œμ€€νŽΈμ°¨λ„ cm λ‹¨μœ„λ‘œ ν‘œν˜„λœλ‹€.
    • 평균값 주변에 데이터가 μ–Όλ§ˆλ‚˜ μ§‘μ€‘λ˜μ–΄ μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λ©°, μ΄μƒμΉ˜μ˜ 영ν–₯을 받을 수 μžˆλ‹€.
    • ν‘œμ€€νŽΈμ°¨κ°€ 큰 경우, 데이터 ν¬μΈνŠΈλ“€μ΄ ν‰κ· μ—μ„œ 멀리 퍼져 μžˆμŒμ„ μ˜λ―Έν•˜κ³ , μž‘μ€ 경우 데이터가 평균에 κ°€κΉκ²Œ μ§‘μ€‘λ˜μ–΄ μžˆμŒμ„ λ‚˜νƒ€λ‚Έλ‹€.
각 λ°΄λ“œμ˜ λ„ˆλΉ„κ°€ 1 ν‘œμ€€νŽΈμ°¨μΈ μ •κ·œλΆ„ν¬μ˜ ꡬ상(Source: Wikipedia)

λΆ„μ‚°κ³Ό ν‘œμ€€νŽΈμ°¨λŠ” λ°μ΄ν„°μ˜ 변동성 λ˜λŠ” 흩어진 정도λ₯Ό 수치적으둜 λ‚˜νƒ€λ‚΄λŠ” μ€‘μš”ν•œ 톡계적 μΈ‘μ • 도ꡬ이닀.
뢄산은 λ°μ΄ν„°μ˜ 퍼짐 정도λ₯Ό μ›λž˜ λ°μ΄ν„°μ˜ 제곱 λ‹¨μœ„λ‘œ μ œκ³΅ν•˜κ³ , ν‘œμ€€νŽΈμ°¨λŠ” μ›λž˜ λ°μ΄ν„°μ˜ λ‹¨μœ„λ‘œ 퍼짐 정도λ₯Ό μ΄ν•΄ν•˜κΈ° μ‰½κ²Œ ν‘œν˜„ν•œλ‹€. 이 두 μ§€ν‘œλŠ” 데이터가 μ–Όλ§ˆλ‚˜ λ‹€μ–‘ν•œμ§€, 예츑 κ°€λŠ₯ν•œ λ²”μœ„ λ‚΄μ—μ„œ μ–Όλ§ˆλ‚˜ λ³€λ™ν•˜λŠ”μ§€λ₯Ό μ΄ν•΄ν•˜λŠ” 데 ν•„μˆ˜μ μ΄λΌ ν•  수 μžˆλ‹€.

Leave a Reply

이메일 μ£Όμ†ŒλŠ” κ³΅κ°œλ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. ν•„μˆ˜ ν•„λ“œλŠ” *둜 ν‘œμ‹œλ©λ‹ˆλ‹€