Data Science - DEEPLINK CORE Lab

머신러닝 데이터세트 분할 방법(How to split your dataset?, train_test_split, KFold, StratifiedKFold)

데이터세트 분할은 머신 러닝 모델을 학습시키기 위한 중요한 단계 중 하나이다. 머신러닝 모델 학습에 있어서 데이터세트를 학습용(train), 검증용(validation), 테스트용(test)으로 나누는

이번에는 미국 초등학교의 Type 비교를 해보고자 한다.학교 Type은 Public, Private으로 구분되며, 데이터를 수집한 Great Schools은 학교와 교육에 대한 정보를 제공하는

오늘 뉴스를 보다보니 이런 기사가 눈에 띄었다. 이대로면 2055년 국민연금 바닥난다…소진시점 2년 앞당겨져 Source: Naver 뉴스(연합뉴스) 여러 기사의 주 내용은

데이터 레이크란? 데이터 레이크(Data Lake)는 대량의 데이터를 생성되는 원시 형식으로 보관하는 중앙 위치를 말한다.기존의 계층적 데이터 웨어하우스(파일이나, 폴더에 저장하는)와 다르게

불확실성과 우연 현상을 다루는 확률은 논리적이고 결정론 적이며 인과 관계가 뚜렷한 다른 수학 주제와 확연히 구별되는 특성을 지닌다. 그런 연유에서

연합학습(Federated Learning)이란? 연합학습(협력학습)은 로컬 데이터 샘플을 보유하고 있는 여러 분산형 장치, 서버에 걸쳐 알고리즘을 교환하지 않고 훈련하는 머신러닝 학습 방법이다.

데이터 세트(Dataset)는 데이터 객체(Data Object)로 구성되며, 데이터 객체는 엔티티(Entity, 생각하는 개념 또는 의미 있는 정보의 단위)를 표현한다. 데이터 베이스에서 행은

데이터 마이닝이란? 데이터 마이닝 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에