본문 바로가기
AI/Machine Learning

[ML] 02. Machine Learning 종류

by KIha_Jung 2020. 3. 16.

선형 회귀분석(Linear Regression)

  • 독립변수와 종속변수가 선형적인 관계가 있다라는 가정하에 분석.
  • 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움.

의사결정나무(Decision Tree)

  • 독립 변수의 조건에 따라 종속변수를 분리(비가 내린다 -> 농구를 하지 않는다)
  • 이해하기 쉬우나 overfitting(과적합)이 잘 일어남.
  • Overfitting 이란, 학습 데이터에 대해서는 좋은 결과를 내지만, 학습에 사용하지 않은 실제 테스트 데이터에 대한 결과는 오히려 더 나빠지는 것. Decision Tree 에서 Tree가 커지면 커질수록 점차 세밀한 분류가 가능해지지만, 학습 데이터에 특화될 가능성도 같이 커진다.

KNN(K-Nearest Neighbor)

  • 새로 들어온 데이터의 주변 k개의 데이터의 class로 분류하는 기법.
  • 학습 프로세스가 시작하기 전에 사람이 지정해줘야하는 인자를 hyper parameter 라고 한다.
  • 대조적으로 다른 파라미터의 값은 훈련을 통해 도출.

     

Neural Network

  • 입력층, 은닉층, 출력층으로 구성된 모형으로서 각 층을 연결하는 노드의 가중치를 업데이트하면서 학습.

SVN(Support Vector Machine)

  • class간의 거리(margin)가 최대가 되도록 decision boundary를 만드는 방법.
  • 학습 과정에서 어느정도 오차를 허용하고 decsion boundary를 긋는다.
  • 학습하는 시간이 오래걸린다.

Ensemble Learning

  • 여러 개의 모델(classifier or base learner)을 결합하여 사용하는 모델.
  • 어떻게 하면 더 좋고 다양한 모델을 만들 수 있을까가 포인트.
  • 성능이 매우 좋음. kaggle, dacon등에서 우승사례가 많음.

K-means clustering

  • 비지도학습의 분리형 군집화 알고리즘.
  • 순서
    • hyper parameter K 설정
    • EM 알고리즘을 기반으로 작동 -> Expectation stap, Maximization stap
    • (1) 각 군집의 중심 위치, (2) 각 개체가 어떤 군집에 속해야 하는지 멤버십
    • 수렵할때까지 반복
  • 단점 : 군집의 모양, 밀도, 크기에 따라 제대로 작동하지 않을 수 있다.

댓글