본문 바로가기
AI/Machine Learning

[ML] 05. 과적합(Overfitting)

by KIha_Jung 2020. 3. 20.

Overfitting이란

  • 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉬움.
  • 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직성
  • 과적합은 data science 뿐만 아니라 AI전반적으로 매우 큰 이슈.

Variance-Bias Trade off

  • 분산(Var)과 편파성(Bias)의 트레이드오프(Tradeoff)
  • 모형 f^(x)로 모집단의 전체 데이터를 예측할 때 발생하는 총 error를 계산(MSE)하면 reducible error & irreducible error에 의존.
    • reducible error : f^ 와 f 의 차이 -> 적절한 모델을 이용하면 f^의 정확도를 높일 수 있다.
    • irreducible error : f(x)와 Y의 차이 : 엡실론의 존재에의해 적확히 예측할 수 없음
  • 1, 2번은 reducible error, 3번은 irreducible error이다.
  • 분산(Variable) : 전체 데이터 집합중 다른 학습 데이터를 이용했을 때 f^이 변하는 정도
  • 편파성(bias) : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
  • 분산과 편파성의 트레이드오프 관계

댓글