데이터사이언스 - DEEPLINK CORE Lab

결측값 처리의 모든 것: MCAR, MAR, MNAR 차이와 실제 처리 전략

데이터 분석을 하다 보면 피할 수 없는 문제가 하나 있습니다. 바로 결측값(Missing Values)입니다. 모델 학습 전에 데이터를 어떻게 정제하느냐가 결과에

통계 공부를 시작하면 가장 먼저 접하게 되는 수치가 바로 유의수준 0.05입니다.하지만 왜 하필 0.05일까요? 0.01도 있고 0.1도 있는데, 0.05는 어떻게

공정 품질을 평가할 때 빠지지 않는 지표가 바로 CP, CPK, PP, PPK입니다.하지만 개념이 비슷해 보이고 수식도 어렵게 느껴져 혼동되는 경우가

데이터 사이언스와 인공지능(AI)을 공부하면서 절대 빠질 수 없는 개념 중 하나가 바로 베이즈 정리(Bayes’ Theorem)이다. 이 베이즈 정리는 새로운 사건이

중심 극한 정리(Central Limit Theorem, CLT)는 통계학과 데이터 사이언스에서 매우 중요한 핵심 이론이다.“모집단의 분포가 무엇이든 간에, 표본의 평균은 정규 분포를

데이터 정규화(Data Normalization)는 머신러닝 모델을 개발할 때 거의 필수적으로 사용되는 전처리 작업이다. 데이터의 크기(스케일)가 서로 다르면, 일부 변수의 영향력이 과도하게

‘결측치(Missing Data)‘란 데이터 세트에서 관찰되지 않거나 기록되지 않은 값들을 의미한다. 다양한 이유로 데이터 수집 과정에서 일부 정보가 누락되거나, 기록되지 않아

모집단 (Population) 정의 모집단은 관심의 대상이 되는 전체 집단을 의미한다. 이는 연구하고자 하는 특정 집단의 모든 구성원 또는 사건들을 포함한다.

현대 데이터 분석 환경에서 다루는 데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 나뉜다.이 두 가지는 저장 방식, 구조, 처리

표준편차 (Standard Deviation) ✅ 정의 🧮 수학적 표현: 📌 표준편차가 알려주는 것 분산 (Variance) ✅ 정의 🧮 수학적 표현: 📌