일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래머스
- 빅분기
- 코딩테스트 python
- 기초다지기
- r
- 파이썬
- 빅데이터분석기사
- DB
- python
- 데이터베이스
- Oracle
- boostcoures
- 정보처리기사
- 빅데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- AI 플랫폼을 활용한 데이터 분석
- 인공지능기초다지기
- 이기적
- SQL
- 이것이 취업을 위한 코딩테스트다 with 파이썬
- [멀티잇]데이터 시각화&분석 취업캠프(Python)
- 데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- Ai
- 코딩테스트
- boostcourse
- 오라클
- PY4E
- Machine Learning
- 난생처음 R코딩&데이터 분석 저서
- 부스트코스
- 네이버부스트캠프
- Today
- Total
목록AI 플랫폼을 활용한 데이터 분석 (60)
매일공부

다항 회귀(Polynomial regression) ; 선형 회귀 - 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현 - 독립 변수와 종속 변수가 선형 관계가 아닌 경우 적용할 수 있는 회귀분석 모델 - 선형 모델을 사용하여 비선형 데이터 집합을 모델링 - 데이터 포인트가 비선형 방식으로 존재할 때 사용 - 곡선의 다항식 선을 사용하여 최적적합을 수행 - 과대적합으로 나타나기 쉬움 > 이상치를 피하기 위해서는 끝 부분의 곡선을 분석하는 것이 좋다. # 사이킷런은 다항 회귀 역시 선형 회귀이기 때문에 비선형 함수를 선형 모델에 적용시키기 위해 피처를 다항식으로 변환하는 클래스 제공 ? == PolynomialFeatures PolynomialFeatures 클래스를 통해 피처를 Poly..

규제(Regularization) - 선형회귀의 과적합 문제를 해결하기 위해서 회귀 계수에 페널티 값을 적용하는 것 - 비용 함수에 alpha 값으로 페널티를 부여해 회귀 계수 값의 크기를 감소시켜 과적합을 개선하는 방식 비용함수 비용함수 = 손실함수(loss function) 학습 데이터의 잔차 오류 값을 최소로 하는 RSS 최소화 방법 vs 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법 == 서로 균형 alpha == 학습 데이터 적합 정도와 회귀 계수 값의 크기 제어를 수행하는 튜닝 파라미터 L2 규제 = W의 제곱에 대해 패널티를 부여하는 방식 = L2 규제를 적용한 회귀를 릿지(Ridge) 회귀 L1 규제 = W 의 절대값에 대해 패널티를 부여 = L1 규제를 적용한 라쏘(La..

오차항의 확률분포가 정규분포가 아닌 경우 적용할 수 있는 회귀분석 모델? Polynomial regression(다항 회귀), Generalized Additive Model (GAM; 일반화 선형 회귀 모델) - 독립변수를 그대로 이용x 종속 변수에 적절한 log함수, logit함수 등을 적용하는 기법 종속변수에 적용하는 함수 : link function 오차항의 확률분포에 따라 적용하는 link function 이 정해져 있음 (확률분포가 binomial인 경우 logit function , 확률분포가 poisson인 경우 log function, 확률분포가 exponential인 경우 inverse function) 종속 변수가 0 아니면 1인 경우 적용할 수 있는 회귀분석 모델? Logistic ..

분류(classification) 분석 : 입력 변수 X에 대해서 이산형 출력 변수 Y(class)를 예측 회귀(regression) 분석 : 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측 : 종속 변수(목표)와 하나 이상의 독립 변수(예측 변수라고도 함) 간의 미래 사건을 예측하는 방법 회귀모델 유형 >> 모델링 대상을 회귀 계수의 선형 결합만으로 표현할 것인지 여부에 따라 ‘선형’ 회귀 모델과 ‘비선형’ 회귀 모델로 구분 [회귀분석] 2. 회귀분석의 종류 회귀분석은 여러 기준에 따라 여러 종류로 분류됩니다. (아래 도표 참고) 1) 예측변수의 종류 회귀분석 : 수치형 자료를 다룸 로지스틱 회귀분석 : 범주형 자료를 다룸 2) 예측변수의 개수 단순 회 hsm-edu.tistory.com 독립 변수..

회귀의 프레임워크 반응변수(target) 설명변수(feature) 대표 방법론 있음 회귀 범주형 - T-검정 - 분산 분석 수치형 - 상관 분석 수치형/범주형 - 선형 회귀 분류 범주형 - 카이제곱 검정 - 피셔의 정합 검정 - 코크란-맨틀-핸첼 검정 - 맥니마 검정 수치형/범주형 - 로지스틱 회귀 - 포아송 회귀 - 서포트 벡터 머신 - 선형 판별 분석 수치형/범주형 수치형/범주형 - K최근접 이웃 -트리 기반 모형 없음 수치형 - 주성분 분석 - 군집 분석 범주형 - 연관성 분석 가설 설정 - 귀무가설(Null Hypothesis) H0 – 영 가설, 모집단에 대한 기존의 생각 (부정적, 소극적, 보수적, 전통적) - 대립가설(Alternative Hypothesis) H₁ - 귀무가설과 다른 새로운..

모델 정확도 평가; 오차측정 지표 >> https://dailystudy.tistory.com/95 지도학습 회귀/분류 모형구성 후보모형 성능 평가 최종 모형 튜닝 1. Data Set 수집 2. Feature 추출 3. 학습 Model 선정 4. Model 평가 5. Model 최적화 비지도학습 세그먼트 분류 세그먼트 통계량 분석 세그먼트 프로파일 정의 정확도(Accuracy) 오차 행렬(confusion matrix) 정밀도(precision) 재현율(recall) F1 스코어 ROC AUC 교차 검증 - 과적합 : 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측은 다른 데이터로 수행할 경우에는 예측 성능이 떨어지는 것 - 교차 검증 : 데이터를 학습용/평가용 데이터 세트로 여러 번 나누고 모..
학습과 검증셋 분리 훈련세트와 테스트세트로 분리 목적 - 훈련데이터에 과대적합 방지하여 일반화 능력을 갖도록 하기위함 sklearn.model_selection.train_test_split( , stratify=, test_size=, random_state= ) 훈련세트와 테스트세트로 분리되었을 때에는, 훈련세트의 값을 기준으로 테스트세트를 변환해야 함 - 훈련 데이터셋(training set) : 모델에 학습하는 데이터 - 검증 데이터셋(validation set) : 신경망 훈련(학습) 하이퍼파라미터를 튜닝하는데 사용 - 테스트 데이터셋(testing set) : 머신러닝 모델의 성능을 최종 평가하는데 사용 (Holdout) 데이터셋을 나누는 비율이 중요한 이유 : 훈련 데이터셋을 많이 할당하면 ..

데이터 랭글링(data wrangling) >> 원본 데이터를 정제하고 사용 가능한 형태로 구성하기 위한 광범위한 변환 과정 >> 데이터 랭글링에 사용되는 가장 일반적인 데이터 구조 - 데이터프레임 데이터 스케일링 (scaling) 수행 목적 - 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으로 발산되지 않도록 하기 위함 - 데이터 전처리 과정에서 굉장히 중요한 과정 - 특성 값을 0~1이나 -1~1 사이 범위의 값으로 변환 - sklearn.preprocessing.MinMaxScaler : 특성의 최솟값과 최댓값을 사용하여 일정 범위 안으로 값을 조정 : 데이터-최소 / 최대-최소 : MinMaxScaler.fit() - 특성의 최솟값과 최댓값을 계산 ..
sklearn.datasets : 예제로 제공하는 데이터 세트 >> sklearn.datasets.make_regression() : 선형 회귀에 사용할 데이터 셋 생성 (선형으로 분산된 데이터를 생성, 가우스 노이즈의 표준 편차, 원하는 피쳐의 수 지정 가능) >> sklearn.datasets.make_classification() : 분류에 필요한 모의 데이터 셋 생성, 실수 특성 행렬과 클래스의 소속을 나타내는 정수 타깃 벡터를 반환 >> sklearn.datasets.make_blobs() - 군집 알고리즘에 적용할 데이터셋 생성 (n개의 무작위 데이터 클러스터를 생성) >> sklearn.datasets.make_circles() - 두개의 차원에 작은 원을 포함하는 큰 원이 포함된 임의의 데..

* 모델 성능 평가 - 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 오차를 구하는 것 * 모델 평가 목적 - 과적합을 방지하고 최적의 모델을 찾기 위해 - 오차가 작을수록 좋은 모형 * 모델 성능 평가는 지도학습에서만 사용되며, 분석 방법에 따른 성능 평가 지표는 다르게 사용됨 분류 분석 평가 지표 confusion matrix - 이진 분류 - confusion matrix (오차 행렬) 예측 True(P) False(N) 정 True TP FN 답 False FP TN - 정확률 accuracy : (TP+TN) / (TP+FN+FP+TN) > 올바르게 예측한 데이터 수 / 전체 데이터수 > from sklearn.metrics import accuracy_score (labels, pred)..