매일공부

[Machine Learning] 조건에 따른 사용가능한 회귀분석 모델 본문

IT/ML

[Machine Learning] 조건에 따른 사용가능한 회귀분석 모델

aram 2022. 12. 9. 22:55

 

https://danbi-ncsoft.github.io/study/2018/05/04/study-regression_model_summary.html
https://danbi-ncsoft.github.io/study/2018/05/04/study-regression_model_summary.html

 

오차항의 확률분포가 정규분포가 아닌 경우 적용할 수 있는 회귀분석 모델?

Polynomial regression(다항 회귀), Generalized Additive Model (GAM; 일반화 선형 회귀 모델)

- 독립변수를 그대로 이용x 종속 변수에  적절한  log함수, logit함수 등을 적용하는 기법

종속변수에 적용하는 함수 : link function 
오차항의 확률분포에 따라 적용하는 link function 이 정해져 있음 
(확률분포가 binomial인 경우 logit function , 
 확률분포가 poisson인 경우 log function, 
 확률분포가 exponential인 경우 inverse function)

 

종속 변수가 0 아니면 1인 경우 적용할 수 있는 회귀분석 모델? Logistic regression

종속 변수가 순위나 선호도와 같이 순서만 있는 데이터인 경우: Ordinal regression 
종속 변수가 개수(count)를 나타내는 경우: Poisson regression

 

오차항에 자기 상관성이 있는 경우 적용할 수 있는 회귀분석 모델? Auto-regression

- ‘자기 상관성’
    :
시계열 데이터와 같이 순서가 정해져 있는 데이터의 경우
    : 주기성이나 계절성 같이 일정한 패턴을 갖고 있는 경우
- 특정 시점 t의 데이터를 과거 시점의 종속변수들이 설명하는 방식 - ‘자기 회귀 (Autoregressive)’
- 모델 시간에 따라 평균이 변하는 경우: Auto-Regressive Moving Average (ARMA) model
- 시간에 따라 분산이 달라지는 경우: Auto-Regressive Conditionally Heteroscedastic (ARCH) model

 

데이터에 아웃라이어가 있는 경우  적용할 수 있는 회귀분석 모델? Robust regression, Quantile regression

Robust regression : 잔차의 제곱 대신 절대값의 합이 최소가 되도록 계수를 추정하는 방식 
Quantile regression
  : 어떤 조건에서 종속 변수의 ‘평균’을 추정하는 방식이 아니라 특정 분위값을 추정하는 기법 
  : 분산이 일정하지 않은 이분산(heteroscedasticity) 데이터도 회귀 모델링이 가능하다

 

독립변수 간에 상관성이 있는 경우 (다중공선성) 적용할 수 있는 회귀분석 모델? 
Ridge regression, Lasso regression, Elastic Net regression,
Principal Component Regression (PCR), Partial Least Square (PLS) regression

Ridge / lasso / elastic net 이 모두 이런 regularization 을 이용한 회귀 모델링 기법

#ridge regression : 회귀 계수의 제곱합을 계산하는 방식
# lasso
   : 회귀 계수의 절대값을 계산하는 방식
   : 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 규제를 적용, 하이퍼파라미터 alpha
# elastic net : ridge regression와 lasso 결합 방식
# PCR : 독립 변수들의 주성분(Principal Component)들을 추출한 후 이 주성분들을 이용해서 회귀 모델을 만드는 기법

 

728x90
Comments