중심 극한 정리(Central Limit Theorem, CLT)는 통계학과 데이터 사이언스에서 매우 중요한 핵심 이론이다.“모집단의 분포가 무엇이든 간에, 표본의 평균은 정규 분포를
Continue reading
중심 극한 정리(Central Limit Theorem, CLT)는 통계학과 데이터 사이언스에서 매우 중요한 핵심 이론이다.“모집단의 분포가 무엇이든 간에, 표본의 평균은 정규 분포를
Continue reading데이터 정규화(Data Normalization)는 머신러닝 모델을 개발할 때 거의 필수적으로 사용되는 전처리 작업이다. 데이터의 크기(스케일)가 서로 다르면, 일부 변수의 영향력이 과도하게
Continue reading‘결측치(Missing Data)‘란 데이터 세트에서 관찰되지 않거나 기록되지 않은 값들을 의미한다. 다양한 이유로 데이터 수집 과정에서 일부 정보가 누락되거나, 기록되지 않아
Continue reading모집단 (Population) 정의 모집단은 관심의 대상이 되는 전체 집단을 의미한다. 이는 연구하고자 하는 특정 집단의 모든 구성원 또는 사건들을 포함한다.
Continue reading현대 데이터 분석 환경에서 다루는 데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 나뉜다.이 두 가지는 저장 방식, 구조, 처리
Continue reading표준편차 (Standard Deviation) 정의
수학적 표현:
표준편차가 알려주는 것 분산 (Variance)
정의
수학적 표현:
“이상치(Outlier)“는 데이터 분석에서 자주 마주하게 되는 중요한 요소이다.이는 다른 데이터 포인트들과 현저히 다른 값을 가지는 관측값으로, 데이터 수집 과정의 오류일
Continue reading데이터 분석에서 ‘중심 경향성’을 이해하는 것은 필수이다.평균(Mean), 중앙값(Median), 모드(Mode)는 데이터를 요약하고 해석할 때 가장 기본이 되는 개념으로, 각각 다른 방식으로
Continue readingGPT-4o 업데이트 소개 2024년 5월 13일, OpenAI는 새로운 플래그십 모델인 GPT-4o를 발표했다. GPT-4o는 텍스트, 음성, 이미지 데이터를 실시간으로 처리할 수
Continue reading가설 검정(Hypothesis Testing)을 처음 배우는 사람이라면 가장 먼저 마주하게 되는 수치가 바로 유의수준(significance level)이다. 특히 그중에서도 0.05, 왜 그렇게 자주
Continue reading