IT/ML

[sklearn] 학습과 검증셋 분리

aram 2022. 11. 21. 01:05

 

학습과 검증셋 분리

훈련세트와 테스트세트로 분리 목적 - 훈련데이터에 과대적합 방지하여 일반화 능력을 갖도록 하기위함

sklearn.model_selection.train_test_split( , stratify=, test_size=, random_state= )
훈련세트와 테스트세트로 분리되었을 때에는, 훈련세트의 값을 기준으로 테스트세트를 변환해야 함

- 훈련 데이터셋(training set) : 모델에 학습하는 데이터
- 검증 데이터셋(validation set) : 신경망 훈련(학습) 하이퍼파라미터를 튜닝하는데 사용
- 테스트 데이터셋(testing set) : 머신러닝 모델의 성능을 최종 평가하는데 사용 (Holdout)

데이터셋을 나누는 비율이 중요한 이유
: 훈련 데이터셋을 많이 할당하면 모델 성능은 향상시킬 수 있지만 과적합에 대처할 수 없게 된다
: 검증 데이터셋과 테스트 데이터셋을 많이 할당하면 훈련 데이터셋이 부족해 모델 성능이 감소할 수 있다.
: 검증 세트 과대 적합여부를 모니터링 할 수 있고, 모델의 성능 평가를 진행할 수 있다.

 

* 내용참고&출처 : 태그에서 수강한 수업을 복습 목적으로 정리한 내용입니다.

728x90