[Machine Learning] 규제 방법에 따른 선형회귀 모델 유형
규제(Regularization)
- 선형회귀의 과적합 문제를 해결하기 위해서 회귀 계수에 페널티 값을 적용하는 것
- 비용 함수에 alpha 값으로 페널티를 부여해 회귀 계수 값의 크기를 감소시켜 과적합을 개선하는 방식
비용함수
- 비용함수 = 손실함수(loss function)
- 학습 데이터의 잔차 오류 값을 최소로 하는 RSS 최소화 방법
vs 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법
== 서로 균형 - alpha == 학습 데이터 적합 정도와 회귀 계수 값의 크기 제어를 수행하는 튜닝 파라미터
- L2 규제
= W의 제곱에 대해 패널티를 부여하는 방식
= L2 규제를 적용한 회귀를 릿지(Ridge) 회귀 - L1 규제
= W 의 절대값에 대해 패널티를 부여
= L1 규제를 적용한 라쏘(Lasso) 회귀
= 영향력이 크지 않은 회귀 계수 값을 0으로 변환
규제 방법에 따른 선형 회귀 모델 유형
# 일반 선형 회귀
: 예측값과 실제 값의 RSS(Residual Sum of Square 잔차제곱의합)를 최소화할 수 있도록 회귀 계수를 최적화하며,
: 규제를 적용하지 않은 모델
# 릿지(Ridge)
- 다중 회귀
- 선형 회귀에 L2 규제를 추가한 회귀 모델
- 불가피하게 독립 변수들 사이에 높은 상관 관계가 있는 경우
- 모델의 복잡성을 줄이는 정규화 또는 규제화(regularization) 기법
- ‘리지 회귀 페널티’로 알려진 약간의 편향, 즉 바이어스(bias)를 사용하여 모델이 과대적합(overfitting)에 덜 취약
L2 규제 (L2 norm) ?
- 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델
- 가중치 벡터 내 요소의 제곱에 루트를 씌워준 값을 사용
# 라쏘(Lasso)
- 선형 회귀에 L1 규제를 추가한 회귀 모델
- 리지 회귀와 같이 모델의 복잡성을 줄여주는 또 다른 정규화 기법
- 회귀 계수의 절대 사이즈를 금지함으로써 복잡성을 줄임
- 아예 계수 값을 0에 가깝게 만듦
- 필요한 요소들만 사용하고 나머지를 0으로 설정함으로써 과대적합을 방지
L1 규제(L1 norm) ?
- 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것
- 가중치 벡터 내 요소의 절대값을 더함
# 엘라스틱넷(ElasticNet)
- L2, L1 규제를 함께 결합한 회귀 모델
- 피처가 많은 데이터 세트에서 적용
- L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기를 조정
# 로지스틱 회귀 (Logistic Regression)
- 분류에 사용되는 회귀 모델
- 종속 변수에 이산 값이 있는 경우
- 두 가지 값 중 하나만 취할 수 있는 경우의 데이터 분석에 사용
- 대상 변수에서 거의 동일한 값이 발생하는 대규모 데이터 세트에서 가장 효과
- 이진 분류, 희소 영역의 분류등 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보임