매일공부

[Machine Learning] 자료의 종류의 따른 회귀분석 모델 본문

IT/ML

[Machine Learning] 자료의 종류의 따른 회귀분석 모델

aram 2022. 11. 30. 01:14

 

분류(classification) 분석

: 입력 변수 X에 대해서 이산형 출력 변수 Y(class)를 예측

회귀(regression) 분석

: 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측
: 종속 변수(목표)와 하나 이상의 독립 변수(예측 변수라고도 함) 간의 미래 사건을 예측하는 방법


회귀모델 유형

출처 https://hsm-edu.tistory.com/1197

>> 모델링 대상을 회귀 계수의 선형 결합만으로 표현할 것인지 여부에 따라 ‘선형’ 회귀 모델과 ‘비선형’ 회귀 모델로 구분

 

[회귀분석] 2. 회귀분석의 종류

회귀분석은 여러 기준에 따라 여러 종류로 분류됩니다. (아래 도표 참고) 1) 예측변수의 종류 회귀분석 : 수치형 자료를 다룸 로지스틱 회귀분석 : 범주형 자료를 다룸 2) 예측변수의 개수 단순 회

hsm-edu.tistory.com

 

독립 변수 개수

1. 독립 변수가 하나인 경우 ‘단순(Simple)’ 
2. 독립 변수가 2개 이상인 경우를 ‘다중(Multiple)’ 

종속 변수 개수

1. 종속 변수가 하나인 회귀 모델을 변량(univariate)’ 회귀 모델 
2. 종속 변수가 2개 이상인 경우를 ‘변량(multivariate)’ 회귀 모델(주로 계량 경제학에서 많이 다룸)

 

출처 https://bangu4.tistory.com/100

선형 회귀(Linear regression) 

- 예측 변수와 종속 변수로 구성
- 가장 적합한 선, 즉 최적 적합선을 사용
- 데이터에 대하여 가능한 변환을 취한 후, 모든 계수들이 방정식에 선형적으로 삽입되어 있음.

비선형(Nonlinear) 회귀

- 종속변수(반응변수)와 일부 독립변수들의 관계가 비선형이거나 일부 계수들이 비선형 적으로 나타남.
- 계수들을 선형적으로 나타나게 하는 어떤 변환도 가능하지 않음.

 

데이터의 종류

#질적변수(범주형데이터) - 명목척도, 서열척도
#양적변수(수치형, 연속형 데이터) - 등간척도, 비율척도

  • 분산분석(ANOVA) - 모든 독립변수들이 질적 변수임 
    공분산분석(ANCOVA) - 어떤 독립변수들양적변수이고 다른 독립변수들질적변수임 

  • 로지스틱(Logistic) - 종속변수(반응변수)질적변수임.

 


오차항

: 측정상의 오차나 모든 정보를 파악할 수 없는 점 등 다양한 현실적인 한계로 인해 발생하는 불확실성
: ‘잡음(noise)’
: 평균이 0이고 분산이 일정정규 분포를 띄는 성질

회귀 모델 검정

 : 회귀 모델의 예측치와 실측치 사이의 차이인 ‘잔차(residual)’가 정말 우리가 가정한 오차항(e) 의 조건을 충족하는지 확인

 

underfitting

- 추정(가정)을 잘못하여 몇몇 중요한 조건들을 반영하지 못해 함수 h()의 일부분만 회귀 모델로 만든 경우 

overfitting

 - 실제 종속변수에 영향을 주는 조건이 아닌 단순한 ‘잡음’을 평균에 영향을 주는 조건으로 착각하고 모델에 반영

 

회귀 모델의 가정(assumption)

- 회귀 모델을 만들기 위해 버린 정보들이 무엇인지를 설명하는 것 
- ‘실제 데이터는 이러 이러한 특성을 갖고 있다’고 가정
- 가정이 많아질수록 모델은 좀 더 단순해고, 가정을 최소화할수록 모델은 복잡해짐

회귀 계수

- 회귀 모델에서 선형이냐 비선형이냐를 결정하는 대상
- 회귀 모델에서 추정해야 하는 미지수

딥러닝 

비선형 회귀 모델링 방법
- 현실 세계의 복잡한 관계도 거의 대부분 표현이 가능
- underfitting 문제에서 상대적으로 자유로움
- verfitting 문제가 발생할 가능성이 더 큼

 

* 내용참고&출처 : 태그에서 수강한 수업을 복습 목적으로 정리한 내용입니다.

Comments