IT/ML

[Machine Learning] 규제 방법에 따른 선형회귀 모델 유형

aram 2022. 12. 9. 23:19

 

규제(Regularization)

- 선형회귀의 과적합 문제를 해결하기 위해서  회귀 계수에 페널티 값을 적용하는 것
- 비용 함수alpha 값으로 페널티를 부여해 회귀 계수 값의 크기를 감소시켜 과적합을 개선하는 방식

 

비용함수

  • 비용함수 = 손실함수(loss function)
  • 학습 데이터의 잔차 오류 값을 최소로 하는 RSS 최소화 방법
      vs 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법
    == 서로 균형
  • alpha == 학습 데이터 적합 정도와 회귀 계수 값의 크기 제어를 수행하는 튜닝 파라미터
  • L2 규제
    = W의 제곱에 대해 패널티를 부여하는 방식
    = L2 규제를 적용한 회귀를 릿지(Ridge) 회귀
  • L1 규제
    = W 의 절대값에 대해 패널티를 부여
    = L1 규제를 적용한 라쏘(Lasso) 회귀
    = 영향력이 크지 않은 회귀 계수 값을 0으로 변환

 

규제 방법에 따른 선형 회귀 모델 유형

# 일반 선형 회귀

  : 예측값과 실제 값의 RSS(Residual Sum of Square 잔차제곱의합)를 최소화할 수 있도록 회귀 계수를 최적화하며,
  : 규제를 적용하지 않은 모델

# 릿지(Ridge)

이미지 출처 : http://www.datamarket.kr/xe/index.php?mid=board_BoGi29&document_srl=7176&listStyle=viewer&page=9

- 다중 회귀
- 선형 회귀에 L2 규제를 추가한 회귀 모델
- 불가피하게 독립 변수들 사이에 높은 상관 관계가 있는 경우
- 모델의 복잡성을 줄이는 정규화 또는 규제화(regularization) 기법
- ‘리지 회귀 페널티’로 알려진 약간의 편향, 즉 바이어스(bias)를 사용하여 모델이 과대적합(overfitting)에 덜 취약

L2 규제 (L2 norm) ?
- 상대적으로 큰 회귀 계수 값 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델 
- 가중치 벡터 내 요소의 제곱에 루트를 씌워준 값을 사용

# 라쏘(Lasso)

이미지 출처 : http://www.datamarket.kr/xe/index.php?mid=board_BoGi29&document_srl=7176&listStyle=viewer&page=9

- 선형 회귀에 L1 규제를 추가한 회귀 모델
- 리지 회귀와 같이 모델의 복잡성을 줄여주는 또 다른 정규화 기법
- 회귀 계수 절대 사이즈를 금지함으로써 복잡성을 줄임
- 아예 계수 값을 0에 가깝게 만듦
- 필요한 요소들만 사용하고 나머지를 0으로 설정함으로써 과대적합을 방지

L1 규제(L1 norm) ?  
- 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것
- 가중치 벡터 내 요소의 절대값을 더함

https://rk1993.tistory.com/entry/Ridge-regression%EC%99%80-Lasso-regression-%EC%89%BD%EA%B2%8C-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0

 

# 엘라스틱넷(ElasticNet)

- L2, L1 규제를 함께 결합한 회귀 모델 
- 피처가 많은 데이터 세트에서 적용
- L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기를 조정

# 로지스틱 회귀 (Logistic Regression)

https://velog.io/@73syjs/Logistic-Regression

- 분류에 사용되는 회귀 모델 
- 종속 변수에 이산 값이 있는 경우
- 두 가지 값 중 하나만 취할 수 있는 경우의 데이터 분석에 사용
- 대상 변수에서 거의 동일한 값이 발생하는 대규모 데이터 세트에서 가장 효과
- 이진 분류, 희소 영역의 분류등 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보임

 

728x90