매일공부

데이터 과학 [기본지식] 본문

IT/기초 다지기

데이터 과학 [기본지식]

aram 2022. 11. 19. 00:40

 

탐색적 데이터 분석

확률론통계학의 수학적 기반
통계학데이터 분석과 모델링을 다루는 응용과학
탐색적 데이터 분석(exploratory data analysis)적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론(추론)을 도출하기 위한 일련의 복잡한 과정에 관해 다룬다

 


데이터 유형

정형화 정형 정리되어 있어 고정된 필드에 저장되어 있는 데이터
반정형 고정된 필드에 저장X 데이터(HTML, 로그 등)
비정형 이미지, 동영상 등 정리X 분석하기 어렵고 복잡한 형태
시간 시계열 시간에 따라 측정(알별 온도, 주가 등)
횡단면 동시간, 서로다른 관측치 개체 측정(도시별 인구수 등)
패널 최단면 데이터를 시간에 따라 나열(연도별 점포 매출 현황 등)

 


모집단과 표본

  • 모집단(population) : 관심의 대상이 되는 전체 집단
  • 표본(sample) : 모집단으로부터 일부만 추출한 집단

    > 알고고자 함 = 대한민국 남성의 평균 키
    > 모집단 = 대한민국 모든 남성
    > 표본 = 임의 추출된 100명의 남성

  • 통계적 추론 : 표본의 추정치인 통계량을 이용해 모집단의 특성을 파악하는 것

  • 모집단의 특성
    : 모수(parameter)
    : 모평균( μ [뮤] )
    : 모표준편차( σ [시그마] )

  • 모집단의 특성 추정치
    : 통계량(statistics)
    : 표본 평균( x̄ )
    : 표본 분산( S² )
    : 표본 표준편차( S )

 


데이터의 측정  척도에 따른 분류

 

질적변수
(범주형 변수)
명목형(nominal) 순서가 없는 범주 데이터
( =, ≠ )
혈액형 - 로지스틱 회귀분석
- 선형 판별 분석
순서형(ordinal) 순서를 가지는 범주데이터
( <, > )
대중소
양적변수
(연속형 · 수치형 변수)
등간척도 대적인 크기로 나타낸 것, 상대적인 크기의 차이가 일정한 변수
( +, - )
설문 - 다중 선형 회귀분석
- 분산 분석
비율척도 절대적 기준이 있는 영점이 존재, 사칙연산이 가능
( ×, ÷ )
무게, 키

 


설명변수 vs 반응변수

feature target
예측하거나 분류해야 하는 데이터의 특성, 속성 값 예측하거나 분류해야 하는 
X 변수 Y 변수
설명변수 반응변수
독립변수 종속변수
input(입력변수) output(출력변수)
특징 라벨(label)
예측변수 피예측변수(예측에 사용되는 변수)

 


'대푯값' 구하기 (위치추정)

- 평균 mean : 모든 값의 총합을 값의 개수로 나눈 값 (가장 기본적인 위치 추정 방법)

- 절사 평균 : 극단값 영향 제거 >> 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균

- 가중평균 weighted mean
: 각 데이터 값 xi에 가중치 wi 를 곱한 값들의 통합을 다시 가중치의 총합으로 나눈 가중평균
: 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용하여 보정 가능

- 중간값 median : 데이터를 일렬로 정렬 했을 떄, 한 가운데 위치하는 값

- 가중 중간값 weighted median : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값

- 로버스트하다 robust : 극단값들에 민감하지 않다는 것을 의미(저항성 있다) 

- 특잇값 outlier : 대부분의 값과 매우 다른 데이터 값 (극단값)  = 이상치 ±IQR * 1.5 밖의  값

 


산포도 (변이추정)

- 데이터 값이 얼마나 밀집 or 퍼져 있는지 나타냄

- 편차 deviation
: 관측값과 위치 추정값 사이의 차이 (오차, 잔차)
: 편차의 합 = 항상 0

- 분산 variance : 평균과 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수 (평균제곱오차)

- 표준편차 standard deviation : 분산의 제곱근(l2 노름, 유클리드 노름) 

- 평균절대편차 mean absolute deviation : 평균과의 편차의 절댓값의 평균 

- 중간값의 중위절대편차 median absolute deviation from the median

>> 분산을 구할 때 수식에 n을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. => 편향 추정 
>> 분산에서 n 대신 n-1로 나눈다면, 비편향 추정이 된다.

 


백분위수 기초 추정

- 정렬된 데이터가 얼마나 퍼져 있는가를 보는 것 

- 범위 range : 데이터의 최댓값과 최솟값의 차이 

- 순서통계량 order statistics : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형(순위

- 백분위수 percentile : 어떤 값들의 p퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-p) 퍼센트가 이 값 혹은더 큰 값을 갖도록 하는 값 (분위수) 

- 사분위범위 interquatile range : 75번째 백분위수와 25번째 백분위수 사이의 차이 (IQR)

 

Comments