통계학이란
- 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
- 일반적으로 모집단 전체를 대상으로한 분석은 불가능
- 표본(Sample) : 모집단의 일부분
- 모수(Parameter) : 수치로 표현되는 모집단의 특성.
- 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양.
- 추정량(Estimator) : 모수를 추정하고자 하는 목적을 지닌 통계량.
- 표본평균
- 표본분산
표본분산
- n - 1 로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 오차를 줄이기 위해서이다.
자료의 종류
- 수치형(양적자료)
- 연속형(몸무게, 키등)
- 이상형(전화 통화 수등)
- 범주형(질적자료)
- 순위형(학점)
- 명목형(성별)
- 자료에 따라 행하는 분석이 달라진다.
자료의 요약 - 수치
- 중심 경향값(대표값)
- 평균(Mean)
- 중앙값(Meadian) : 크기순으로 정렬시켜 중앙에 위치한 값.
- 최빈값(Mode) : 가장 자주 나오는 값.
- 산포도(퍼진 정도)
- 분산(Variance)
- 사분위수 범위(Inter quartile range) : 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
- 정규분포(normal distribution)
- 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포.
- 위치는 평균에 의해, 모양은 분산에 의해 결정.
- 분포도
- 왜도(Skewness) : 분포의 비대칭 정도, Left-skewed(꼬리가 긴 쪽), Right-skewed
- 첨도(Kurtosis) : 분포의 꼬리 부분의 비중에 대한 측도, Ks = 0 -> 뾰족한 정도가 정규분포와 동일
확률
- 확률실험(Random experiment)
- 실험의 결과는 미리 알 수 없다.
- 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다.
- 이론적으로는 실험으로 반복할 수 있다.
- 표본공간(Sample space) : 모든 결과들의 모임
- 근원사건(Sample outcome) : 표본 공간의 원소
- 사건(Event) : Sample space의 부분 집합. 근원사건의 집합.
- 배반 사건(Mutually exclusive events) : 서로 교집합이 공집합인 사건.
- 확률
- 어떤 사건이 일어날 가능성의 정도 P(A)
- 확률의 공리
- 0 <= P(A) <= 1
- P(S) = 1
- 어떠한 사건들이 서로 배반사건일 때, 이사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다.
- 조건부 확률
- 사건 B에 대한 정보가 주어졌을 때 사건 A의 교정된 확률 P(A|B)
- 독립
- 사건A와 B가 서로에게 아무런 영향을 미치지 않을 때
- P(A ∩ B) = P(A) * P(B)
확률변수
- 각각의 근원사건들에 실수값을 대응시키는 함수
- ex) 두 쌍의 동전을 던지는 확률 실험에서, X: 동전 앞면의 개수
- X((H, H)) = 2
확률분포
- 확률변수에서 확률값으로의 함수, 주로 f(x)로 표기
- 확률변수가 정의되면 확률분포가 정의됨.
- f(2) = P(X=2) = 1/4
- 확률변수의 기대값
- 확률변수의 평균 E(X)
- 확률변수의 분산
- Var(x) = E(x - u)^2
- Var(x) = E(x - u)^2
- 공분산(Covariance)
- 2개의 확률변수의 상관정도를 나타내는 값.
- ex) 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승 경향을 보이면 공분산의 값은 양수.
- X, Y가 독립이면 Cov(X, Y) = 0
- 상관계수(Correlation)
- 공분산은 X, Y 단위의 절대적 크기에 영향을 받는다.
- ex) 키를 cm or m 단위로 하느냐에 따라 영향을 받는다.
- 따라서 상관계수는 공분산을 단위화한 값이다.
'AI > ML을 위한 수학' 카테고리의 다른 글
[ML을 위한 수학] 02. 이상형 확률분포 & 연속형 확률분포 (0) | 2020.03.21 |
---|
댓글