모델을 구축하거나 모형을 학습하고 평가 하기 위해서 Dataset이 필요하다.
이때 Dataset은 성질에 맞게 3가지로 분류하여 사용한다.
- Train set
Train set은 모델을 학습하기 위한 Dataset이며, 모델을 학습하는데 Train set만을 사용하게 된다. - Validation set
Validation set은 학습이 잘 이루어 지고 있는지 검증(성능 검증)하기 위해 사용하며, 학습이 잘 진행 되는지 모니터링(Test Accuracy 확인) 하고, Overfitting을 막기 위한 용도로 사용한다. - Test set
Test set은 학습에 전혀 관여하지 않으며, 모델의 ‘최종 성능’을 평가하기 위해서만 사용된다.
Dataset이 충분히 커서 Train을 위해 많은 Data를 학습하게 된다면, Train에 많은 시간이 소요 될 것이고, Test 진행 전에 이미 Overfitting이 발생될 가능성이 높다.
따라서 Train 중간에 Validation을 진행하여 Overfitting을 막고 학습이 진행되는지 확인 할 수 있도록, 위와 같이 Train-Validation-Test의 3가지 Set으로 나누어 평가하게 된다.
Dataset이 크지 않다면 Train에 필요한 Data가 충분하지 않으므로, Validation set을 만들지 않고 Train-Test set만으로 구분하여 학습하기도 한다.
Train-Test set의 분할 비율은 적용 Case에 따라 매우 상이할 수 있으나, 일반적으로는 8:2 정도를 사용하며, Train set에서 Train-Validation set으로 나눌 경우에도 일반적으로 8:2 정도를 사용한다.