Recent Posts
Tags
- AI 플랫폼을 활용한 데이터 분석
- 부스트코스
- 난생처음 R코딩&데이터 분석 저서
- 코딩테스트 python
- boostcoures
- 정보처리기사
- 코딩테스트
- 빅데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- 빅데이터분석기사
- [멀티잇]데이터 시각화&분석 취업캠프(Python)
- PY4E
- 빅분기
- boostcourse
- 이것이 취업을 위한 코딩테스트다 with 파이썬
- SQL
- python
- 데이터베이스
- Oracle
- 프로그래머스
- 데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- DB
- r
- 오라클
- Ai
- 인공지능기초다지기
- Machine Learning
- 기초다지기
- 이기적
- 파이썬
- 네이버부스트캠프
- Today
- Total
매일공부
[sklearn] 학습과 검증셋 분리 본문
학습과 검증셋 분리
훈련세트와 테스트세트로 분리 목적 - 훈련데이터에 과대적합 방지하여 일반화 능력을 갖도록 하기위함
sklearn.model_selection.train_test_split( , stratify=, test_size=, random_state= )
훈련세트와 테스트세트로 분리되었을 때에는, 훈련세트의 값을 기준으로 테스트세트를 변환해야 함
- 훈련 데이터셋(training set) : 모델에 학습하는 데이터
- 검증 데이터셋(validation set) : 신경망 훈련(학습) 하이퍼파라미터를 튜닝하는데 사용
- 테스트 데이터셋(testing set) : 머신러닝 모델의 성능을 최종 평가하는데 사용 (Holdout)
데이터셋을 나누는 비율이 중요한 이유
: 훈련 데이터셋을 많이 할당하면 모델 성능은 향상시킬 수 있지만 과적합에 대처할 수 없게 된다
: 검증 데이터셋과 테스트 데이터셋을 많이 할당하면 훈련 데이터셋이 부족해 모델 성능이 감소할 수 있다.
: 검증 세트로 과대 적합여부를 모니터링 할 수 있고, 모델의 성능 평가를 진행할 수 있다.
* 내용참고&출처 : 태그에서 수강한 수업을 복습 목적으로 정리한 내용입니다.
'IT > ML' 카테고리의 다른 글
[Machine Learning] 회귀의 가설검정&분산분석 (0) | 2022.11.28 |
---|---|
[Machine Learning] 교차검증 (0) | 2022.11.21 |
[sklearn] Data Preprocessing (0) | 2022.11.21 |
[sklearn] 사이킷런 (scikit-learn) 주요 모듈 (0) | 2022.11.20 |
[Machine Learning] 오차행렬 - 모델 평가&분류 확인 (0) | 2022.11.20 |
Comments