모형의 적합성 평가
- 학습 집합의 MSE는 복잡한 모형일수록 감소하지만, 학습 데이터가 아닌 또 다른 데이터(검증 데이터)의 MSE는 일정 시점 이후 증가
- 간단한 모형일수록 under fitting이 일어남.
- 따라서 적당한 분산과 편파성을 가진 모델을 찾아야 함.
데이터 분할
- 과적합(overfitting)을 방지하기 위해 전체 데이터를 학습 데이터(training), 검증 데이터(validation), 테스트 데이터(test)를 나누며 보통 비율은 5:3:2로 정함.
- training data : 모형 f를 추정하는데 필요
- validation data : 추정한 모형 f가 적합한지 검증, validation을 보고 hyper parameter을 설정한다.
- test data : 최정적으로 선택한 모형의 성능 평가
- hyper parameter가 필요 없는 경우는 traing, test data로 나누어 사용.
k-Fold 교차검증(k-Fold Cross Validation)
- 모형의 적합성을 보다 객관적으로 평가하기 위한 방법
- 데이터를 k개 부분으로 나눈 뒤, 그 중 하나를 검증 집합, 나머지를 학습 집합으로 분류
- 위 과정을 k번 반복, k개의 성능 지표를 평균하여 적합성 평가
- 데이터가 에매하게 많은 경우 사용
LOOCV(Leave-On-Out Cross Validation)
- 데이터 수가 적을 때 사용
- 총 n(데이터 수)개의 모델을 만드는데, 각 모델은 하나의 샘플만 제외하면서 모델을 만들고 제외한 샘플로 성능 지표 계산. 이렇게 도출된 n개의 성능 지표를 평균 내어 최종 성능 지표를 도출
데이터 분석 과정
-
전처리
- raw 데이터를 모델링 할 수 있도록 데이터를 병합 및 파생 변수 생성
- 목적에 맞게 feature을 잘 설정해줘야 한다.(Feature Engineering)
-
Class imbalance problem
- 데이터에서 각 클래스의 개수가 현저하게 차이가 나는 문제
- ex) 은행 사기율, HIV 발병율등
- training data 보정(과대표집, 과소표집등)
'AI > Machine Learning' 카테고리의 다른 글
[ML] 05. 과적합(Overfitting) (0) | 2020.03.20 |
---|---|
[ML] 03. 딥러닝 주요 모델 (0) | 2020.03.16 |
[ML] 02. Machine Learning 종류 (0) | 2020.03.16 |
[ML] 01. 지도학습, 비지도학습, 강화학습 (0) | 2020.03.16 |
[ML] 00. Machine Learning Curriculum (0) | 2020.03.16 |
댓글