- 빅분기
- python
- 빅데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- 빅데이터분석기사
- 이것이 취업을 위한 코딩테스트다 with 파이썬
- 네이버부스트캠프
- AI 플랫폼을 활용한 데이터 분석
- Ai
- PY4E
- r
- 기초다지기
- 인공지능기초다지기
- boostcoures
- 코딩테스트
- SQL
- 파이썬
- 코딩테스트 python
- 난생처음 R코딩&데이터 분석 저서
- 오라클
- 데이터 분석 기반 에너지 운영 관리자 양성 및 취업과정
- 데이터베이스
- 이기적
- [멀티잇]데이터 시각화&분석 취업캠프(Python)
- boostcourse
- Oracle
- Machine Learning
- 프로그래머스
- 부스트코스
- DB
- 정보처리기사
- Today
- Total
매일공부
데이터 과학 [기본지식] 본문
탐색적 데이터 분석
확률론 – 통계학의 수학적 기반
통계학 – 데이터 분석과 모델링을 다루는 응용과학
탐색적 데이터 분석(exploratory data analysis) – 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론(추론)을 도출하기 위한 일련의 복잡한 과정에 관해 다룬다
데이터 유형
정형화 | 정형 | 정리되어 있어 고정된 필드에 저장되어 있는 데이터 |
반정형 | 고정된 필드에 저장X 데이터(HTML, 로그 등) | |
비정형 | 이미지, 동영상 등 정리X 분석하기 어렵고 복잡한 형태 | |
시간 | 시계열 | 시간에 따라 측정(알별 온도, 주가 등) |
횡단면 | 동시간, 서로다른 관측치 개체 측정(도시별 인구수 등) | |
패널 | 최단면 데이터를 시간에 따라 나열(연도별 점포 매출 현황 등) |
모집단과 표본
- 모집단(population) : 관심의 대상이 되는 전체 집단
- 표본(sample) : 모집단으로부터 일부만 추출한 집단
> 알고고자 함 = 대한민국 남성의 평균 키
> 모집단 = 대한민국 모든 남성
> 표본 = 임의 추출된 100명의 남성 - 통계적 추론 : 표본의 추정치인 통계량을 이용해 모집단의 특성을 파악하는 것
- 모집단의 특성
: 모수(parameter)
: 모평균( μ [뮤] )
: 모표준편차( σ [시그마] ) - 모집단의 특성 추정치
: 통계량(statistics)
: 표본 평균( x̄ )
: 표본 분산( S² )
: 표본 표준편차( S )
데이터의 측정 척도에 따른 분류
질적변수 (범주형 변수) |
명목형(nominal) | 순서가 없는 범주 데이터 ( =, ≠ ) |
혈액형 | - 로지스틱 회귀분석 - 선형 판별 분석 |
순서형(ordinal) | 순서를 가지는 범주데이터 ( <, > ) |
대중소 | ||
양적변수 (연속형 · 수치형 변수) |
등간척도 | 상대적인 크기로 나타낸 것, 상대적인 크기의 차이가 일정한 변수 ( +, - ) |
설문 | - 다중 선형 회귀분석 - 분산 분석 |
비율척도 | 절대적 기준이 있는 영점이 존재, 사칙연산이 가능 ( ×, ÷ ) |
무게, 키 |
설명변수 vs 반응변수
feature | target |
예측하거나 분류해야 하는 데이터의 특성, 속성 값 | 예측하거나 분류해야 하는 값 |
X 변수 | Y 변수 |
설명변수 | 반응변수 |
독립변수 | 종속변수 |
input(입력변수) | output(출력변수) |
특징 | 라벨(label) |
예측변수 | 피예측변수(예측에 사용되는 변수) |
'대푯값' 구하기 (위치추정)
- 평균 mean : 모든 값의 총합을 값의 개수로 나눈 값 (가장 기본적인 위치 추정 방법)
- 절사 평균 : 극단값 영향 제거 >> 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균
- 가중평균 weighted mean
: 각 데이터 값 xi에 가중치 wi 를 곱한 값들의 통합을 다시 가중치의 총합으로 나눈 가중평균
: 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용하여 보정 가능
- 중간값 median : 데이터를 일렬로 정렬 했을 떄, 한 가운데 위치하는 값
- 가중 중간값 weighted median : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값
- 로버스트하다 robust : 극단값들에 민감하지 않다는 것을 의미(저항성 있다)
- 특잇값 outlier : 대부분의 값과 매우 다른 데이터 값 (극단값) = 이상치 ±IQR * 1.5 밖의 값
산포도 (변이추정)
- 데이터 값이 얼마나 밀집 or 퍼져 있는지 나타냄
- 편차 deviation
: 관측값과 위치 추정값 사이의 차이 (오차, 잔차)
: 편차의 합 = 항상 0
- 분산 variance : 평균과 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수 (평균제곱오차)
- 표준편차 standard deviation : 분산의 제곱근(l2 노름, 유클리드 노름)
- 평균절대편차 mean absolute deviation : 평균과의 편차의 절댓값의 평균
- 중간값의 중위절대편차 median absolute deviation from the median
>> 분산을 구할 때 수식에 n을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. => 편향 추정
>> 분산에서 n 대신 n-1로 나눈다면, 비편향 추정이 된다.
백분위수 기초 추정
- 정렬된 데이터가 얼마나 퍼져 있는가를 보는 것
- 범위 range : 데이터의 최댓값과 최솟값의 차이
- 순서통계량 order statistics : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형(순위)
- 백분위수 percentile : 어떤 값들의 p퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-p) 퍼센트가 이 값 혹은더 큰 값을 갖도록 하는 값 (분위수)
- 사분위범위 interquatile range : 75번째 백분위수와 25번째 백분위수 사이의 차이 (IQR)
'IT > 기초 다지기' 카테고리의 다른 글
[AI 기초 다지기] 행렬matrix이란? (0) | 2022.07.25 |
---|---|
[AI 기초 다지기] 벡터란? (0) | 2022.07.23 |
[AI 기초 다지기] jupyter notebook 단축키 정리 (0) | 2022.07.23 |
[AI 기초 다지기] Windows & cmd 명령어 정리 (0) | 2022.07.23 |
[CS50 2019] 컴퓨팅 사고 Computational Thinking (0) | 2022.07.22 |