Dataset Split(데이터세트 분리하기) – Training, Validation, Test

Posted by

모델을 구축하거나 모형을 학습하고 평가 하기 위해서 Dataset이 필요하다.
이때 Dataset은 성질에 맞게 3가지로 분류하여 사용한다.

  1. Train set
    Train set은 모델을 학습하기 위한 Dataset이며, 모델을 학습하는데 Train set만을 사용하게 된다.
  2. Validation set
    Validation set은 학습이 잘 이루어 지고 있는지 검증(성능 검증)하기 위해 사용하며, 학습이 잘 진행 되는지 모니터링(Test Accuracy 확인) 하고, Overfitting을 막기 위한 용도로 사용한다.
  3. Test set
    Test set은 학습에 전혀 관여하지 않으며, 모델의 ‘최종 성능’을 평가하기 위해서만 사용된다.

Dataset이 충분히 커서 Train을 위해 많은 Data를 학습하게 된다면, Train에 많은 시간이 소요 될 것이고, Test 진행 전에 이미 Overfitting이 발생될 가능성이 높다.
따라서 Train 중간에 Validation을 진행하여 Overfitting을 막고 학습이 진행되는지 확인 할 수 있도록, 위와 같이 Train-Validation-Test의 3가지 Set으로 나누어 평가하게 된다.

Dataset이 크지 않다면 Train에 필요한 Data가 충분하지 않으므로, Validation set을 만들지 않고 Train-Test set만으로 구분하여 학습하기도 한다.

Train-Test set의 분할 비율은 적용 Case에 따라 매우 상이할 수 있으나, 일반적으로는 8:2 정도를 사용하며, Train set에서 Train-Validation set으로 나눌 경우에도 일반적으로 8:2 정도를 사용한다.

Leave a Reply

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다