본문 바로가기
AI/Machine Learning

[ML] 04. 모형의 적합성 평가 및 실험 설계

by KIha_Jung 2020. 3. 20.

모형의 적합성 평가

  • 학습 집합의 MSE는 복잡한 모형일수록 감소하지만, 학습 데이터가 아닌 또 다른 데이터(검증 데이터)의 MSE는 일정 시점 이후 증가
  • 간단한 모형일수록 under fitting이 일어남.
  • 따라서 적당한 분산과 편파성을 가진 모델을 찾아야 함.

데이터 분할

  • 과적합(overfitting)을 방지하기 위해 전체 데이터를 학습 데이터(training), 검증 데이터(validation), 테스트 데이터(test)를 나누며 보통 비율은 5:3:2로 정함.
    • training data : 모형 f를 추정하는데 필요
    • validation data : 추정한 모형 f가 적합한지 검증, validation을 보고 hyper parameter을 설정한다.
    • test data : 최정적으로 선택한 모형의 성능 평가
  • hyper parameter가 필요 없는 경우는 traing, test data로 나누어 사용.

k-Fold 교차검증(k-Fold Cross Validation)

  • 모형의 적합성을 보다 객관적으로 평가하기 위한 방법
  • 데이터를 k개 부분으로 나눈 뒤, 그 중 하나를 검증 집합, 나머지를 학습 집합으로 분류
  • 위 과정을 k번 반복, k개의 성능 지표를 평균하여 적합성 평가
  • 데이터가 에매하게 많은 경우 사용

LOOCV(Leave-On-Out Cross Validation)

  • 데이터 수가 적을 때 사용
  • 총 n(데이터 수)개의 모델을 만드는데, 각 모델은 하나의 샘플만 제외하면서 모델을 만들고 제외한 샘플로 성능 지표 계산. 이렇게 도출된 n개의 성능 지표를 평균 내어 최종 성능 지표를 도출

데이터 분석 과정

  • 전처리

    • raw 데이터를 모델링 할 수 있도록 데이터를 병합 및 파생 변수 생성
    • 목적에 맞게 feature을 잘 설정해줘야 한다.(Feature Engineering)
  • Class imbalance problem

    • 데이터에서 각 클래스의 개수가 현저하게 차이가 나는 문제
    • ex) 은행 사기율, HIV 발병율등
    • training data 보정(과대표집, 과소표집등)

댓글