- 데이터베이스
- 코딩테스트
- AI 플랫폼을 활용한 데이터 분석
- PY4E
- 네이버부스트캠프
- boostcoures
- 이것이 취업을 위한 코딩테스트다 with 파이썬
- 기초다지기
- [멀티잇]데이터 시각화&분석 취업캠프(Python)
- 이기적
- 파이썬
- 프로그래머스
- Oracle
- 빅분기
- boostcourse
- 오라클
- r
- DB
- SQL
- 정보처리기사
- 빅데이터분석기사
- 난생처음 R코딩&데이터 분석 저서
- Ai
- 인공지능기초다지기
- 부스트코스
- Machine Learning
- 빅데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- 데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- 코딩테스트 python
- python
- Today
- Total
목록Machine Learning (5)
매일공부
k-최근접 이웃(KNN) 분류 게으른 학습기 지도 학습에 활용되는 가장 단순한 종류의 알고리즘 주어진 개수만큼 가까운 멤버들과 비교하여 그룹으로 분류 (Nearest Neighbour) 모델 훈련X == new data가 들어오면 그때그때 분류 가장 가까운 k 개의 샘플에서 다수의 클래스를 그 샘플의 클래스로 예측 데이터와 데이터 사이의 거리를 구해야 함 > https://cafe.naver.com/soojebi/151442 의 문제 1. K값에 따라 결과가 달라질 수 있다. 2. 학습 절차 없이 새로운 데이터가 들어 올때 거리를 측정한다. 3. 거리 기반의 모형이므로 예측 변수에 대한 표준화가 필요하다. KNeighborsClassifier(n_neighbors, p, metric, ...) - met..
• 경험적 확률(사전 확률) : 주사위 1000번을 굴렸을 때 1이 나올 횟수에 대해 계산하기 위해 추론한 1/6의 확률 • 빈도론(Frequentism)의 입장 >> 주사위 굴리기에서 1이 나오는 확률은 무한히 많은 주사위 굴리기 경험을 통해 1 이 나오는 빈도가 1/6에 수렴하는 객관적인 사건 • 베이지안(Baysianism)의 입장 >> 주관적으로 사전 확률을 정한 다음 데이터를 관찰하며 가능도를 계산 ex) 주사위는 6면이 있으니 한 번의 시행에서 6은 1/6의 확률을 사전 확률 • 결합 확률 - 두 가지 이상의 사건이 동시에 발생하는 확률 베이즈 정리 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리 뒤 사건이 발생할 확률(posterior probability)는 앞 사건이 ..
서포트 벡터 머신; SVM(Support Vector Machine) 데이터 간 거리를 측정하여 두 개의 데이터 사이의 중심을 구한 후 그 가운데에서 최적의 초평면(Optimal Hyper Plane) 찾아 데이터를 분류하는 머신러닝 모델 비확률적 이진 선형분류모델 1. 데이터를 정확히 분류하는 범위 찾기 2. 데이터를 분류하는 구분선 선택 3. 선과 가장 가까운 데이터 포인트(서포트 벡터 support vector) 찾기 4. 데이터 구분하는 선과 서포트 벡터와의 거리(margin) 계산 목적 - 오류율 최소화 - 두 class 사이에 존재하는 margin 최대화한 구분선 = decision boundary(결정경계) 찾기 Hyper plane 초평면 - 그룹을 분류하는 데이터를 기준으로 한 선 또는 ..
앙상블 학습 Ensemble Learning - 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 - 여러 개의 기본 모델 (weak learner, classifier, base learner, single learner)을 활용하여 하나의 새로운 모델을 만들어 내는 개념 - 다양한 분류기의 예측 결과 결합 >>> 단일 분류기보다 신뢰성이 높은 예측값을 얻을 수 있습니다. - 정형 데이터 분류 >> 앙상블이 뛰어난 성능을 보임 앙상블 학습의 유형 보팅 - 여러 종류의 알고리즘을 사용한 각각의 결과에 대해 투표를 통해 최종 결과를 예측하는 방식 하드보팅 - 다수결의 원칙과 비슷(다수의 분류기가 결정한 예측값을 최종 보팅 결과값으로 선정) 소프..
의사결정트리? 질문에 근거하여 규칙을 통해 데이터를 분류, 회귀 분석 지도학습 모델 노드들로 이루어진 tree를 생성 한 분기마다 변수 영역 2개로 구분 구성 노드 node : 질문이나 정답 부모노드 Root Node : 가장 처음의 분류 기준 자식노드 Intermediate Node : 중간 분류 기준 자식노드 Terminal(Leaf) Node : 가장 마지막 노드 불순도 Impurity 복잡성 제대로 분류되지 않고 섞여 있는 정도 낮을수록 good 정보이득 (IG, Information Gain) ( 현재 노드의 불순도 )와 ( 자식노드의 불순도 ) 차이 각 노드에서 분기하기 위한 최적 질문 순수도 최대 자식노드의 불순도 최소 정보이득 최대 >> 되도록 불순도 측정 지니(Gini) 지수 엔트로피(E..