본문 바로가기
AI/ML을 위한 수학

[ML을 위한 수학] 01. 통계학 & 확률

by KIha_Jung 2020. 3. 21.

통계학이란

  • 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
    • 일반적으로 모집단 전체를 대상으로한 분석은 불가능
  • 표본(Sample) : 모집단의 일부분
  • 모수(Parameter) : 수치로 표현되는 모집단의 특성.
  • 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양.
  • 추정량(Estimator) : 모수를 추정하고자 하는 목적을 지닌 통계량.
    • 표본평균
    • 표본분산

표본분산

  • n - 1 로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 오차를 줄이기 위해서이다.

자료의 종류

  • 수치형(양적자료)
    • 연속형(몸무게, 키등)
    • 이상형(전화 통화 수등)
  • 범주형(질적자료)
    • 순위형(학점)
    • 명목형(성별)
  • 자료에 따라 행하는 분석이 달라진다.

자료의 요약 - 수치

  • 중심 경향값(대표값)
    • 평균(Mean)
    • 중앙값(Meadian) : 크기순으로 정렬시켜 중앙에 위치한 값.
    • 최빈값(Mode) : 가장 자주 나오는 값.
  • 산포도(퍼진 정도)
    • 분산(Variance)
    • 사분위수 범위(Inter quartile range) : 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
  • 정규분포(normal distribution)
    • 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포.
    • 위치는 평균에 의해, 모양은 분산에 의해 결정.
  • 분포도
    • 왜도(Skewness) : 분포의 비대칭 정도, Left-skewed(꼬리가 긴 쪽), Right-skewed
    • 첨도(Kurtosis) : 분포의 꼬리 부분의 비중에 대한 측도, Ks = 0 -> 뾰족한 정도가 정규분포와 동일

확률

  • 확률실험(Random experiment)
    • 실험의 결과는 미리 알 수 없다.
    • 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다.
    • 이론적으로는 실험으로 반복할 수 있다.
  • 표본공간(Sample space) : 모든 결과들의 모임
  • 근원사건(Sample outcome) : 표본 공간의 원소
  • 사건(Event) : Sample space의 부분 집합. 근원사건의 집합.
    • 배반 사건(Mutually exclusive events) : 서로 교집합이 공집합인 사건.
  • 확률
    • 어떤 사건이 일어날 가능성의 정도 P(A)
  • 확률의 공리
    1. 0 <= P(A) <= 1
    2. P(S) = 1
    3. 어떠한 사건들이 서로 배반사건일 때, 이사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다.
  • 조건부 확률
    • 사건 B에 대한 정보가 주어졌을 때 사건 A의 교정된 확률 P(A|B)
  • 독립
    • 사건A와 B가 서로에게 아무런 영향을 미치지 않을 때
    • P(A ∩ B) = P(A) * P(B)

확률변수

  • 각각의 근원사건들에 실수값을 대응시키는 함수
  • ex) 두 쌍의 동전을 던지는 확률 실험에서, X: 동전 앞면의 개수
  • X((H, H)) = 2

확률분포

  • 확률변수에서 확률값으로의 함수, 주로 f(x)로 표기
  • 확률변수가 정의되면 확률분포가 정의됨.
  • f(2) = P(X=2) = 1/4
  • 확률변수의 기대값
    • 확률변수의 평균 E(X)
  • 확률변수의 분산
    • Var(x) = E(x - u)^2
  • 공분산(Covariance)
    • 2개의 확률변수의 상관정도를 나타내는 값.
    • ex) 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승 경향을 보이면 공분산의 값은 양수.
    • X, Y가 독립이면 Cov(X, Y) = 0
  • 상관계수(Correlation)
    • 공분산은 X, Y 단위의 절대적 크기에 영향을 받는다.
    • ex) 키를 cm or m 단위로 하느냐에 따라 영향을 받는다.
    • 따라서 상관계수는 공분산을 단위화한 값이다.

댓글