Mixed Data Learning은 다양한 유형의 데이터를 사용하여 학습하는 기술이다. 이러한 데이터는 텍스트, 이미지, 오디오, 비디오 등 여러 형식일 수 있다.
Continue reading[카테고리:] Data Science
머신러닝 데이터세트 분할 방법(How to split your dataset?, train_test_split, KFold, StratifiedKFold)
데이터세트 분할은 머신 러닝 모델을 학습시키기 위한 중요한 단계 중 하나이다. 머신러닝 모델 학습에 있어서 데이터세트를 학습용(train), 검증용(validation), 테스트용(test)으로 나누는
Continue reading[Level of Significance] 유의수준으로 0.05를 사용하는 이유는?
유의수준(Level of Significance) 가설검증에서 귀무가설이 실제로 참일 때 귀무가설에 대한 판단의 오류수준(잘못 기각할 확률)을 말하며, 제1종 오류※의 위험성을 부담할 최대 확률을
Continue reading미국 초등학교 학군 비교 분석 #2(Analysis of Elementary Schools by State in the United States)
이번에는 미국 초등학교의 Type 비교를 해보고자 한다.학교 Type은 Public, Private으로 구분되며, 데이터를 수집한 Great Schools은 학교와 교육에 대한 정보를 제공하는
Continue reading미국 초등학교 학군 비교 분석 #1(Analysis of Elementary Schools by State in the United States)
오늘 뉴스를 보다보니 이런 기사가 눈에 띄었다. 이대로면 2055년 국민연금 바닥난다…소진시점 2년 앞당겨져 Source: Naver 뉴스(연합뉴스) 여러 기사의 주 내용은
Continue reading정형 데이터와 비정형 데이터의 차이점(Structured, Unstructured Data, What is Difference?)
정형 데이터(Structured Data) 란?정형 데이터는 구조화된 데이터라고도 말하며 표준화된 형식이고, 구조가 잘 정의되어 있으며, 데이터 모델을 준수하고, 지속적인 순서를 따르고,
Continue reading데이터 레이크하우스(Data Lakehouse)
데이터 레이크란? 데이터 레이크(Data Lake)는 대량의 데이터를 생성되는 원시 형식으로 보관하는 중앙 위치를 말한다.기존의 계층적 데이터 웨어하우스(파일이나, 폴더에 저장하는)와 다르게
Continue reading통계의 함정 – 심슨의 역설(Pitfalls of Statistics – Simpson’s Paradox)
불확실성과 우연 현상을 다루는 확률은 논리적이고 결정론 적이며 인과 관계가 뚜렷한 다른 수학 주제와 확연히 구별되는 특성을 지닌다. 그런 연유에서
Continue readingFederated Learning(Collaborative Learning, 연합학습)
연합학습(Federated Learning)이란? 연합학습(협력학습)은 로컬 데이터 샘플을 보유하고 있는 여러 분산형 장치, 서버에 걸쳐 알고리즘을 교환하지 않고 훈련하는 머신러닝 학습 방법이다.
Continue reading데이터의 객체와 속성 (Object and Attribute of Data)
데이터 세트(Dataset)는 데이터 객체(Data Object)로 구성되며, 데이터 객체는 엔티티(Entity, 생각하는 개념 또는 의미 있는 정보의 단위)를 표현한다. 데이터 베이스에서 행은
Continue reading