본문 바로가기

AI/Machine Learning6

[ML] 05. 과적합(Overfitting) Overfitting이란 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉬움. 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직성 과적합은 data science 뿐만 아니라 AI전반적으로 매우 큰 이슈. Variance-Bias Trade off 분산(Var)과 편파성(Bias)의 트레이드오프(Tradeoff) 모형 f^(x)로 모집단의 전체 데이터를 예측할 때 발생하는 총 error를 계산(MSE)하면 reducible error & irreducible error에 의존. reducible error : f^ 와 f 의 차이 -> 적절한 모델을 이용하면 f^의 정확도를 높일 수 있다. irreducible error : f(x)와 Y의 차이 : 엡실론의 존재에의해 적확히 예측할 수.. 2020. 3. 20.
[ML] 04. 모형의 적합성 평가 및 실험 설계 모형의 적합성 평가 학습 집합의 MSE는 복잡한 모형일수록 감소하지만, 학습 데이터가 아닌 또 다른 데이터(검증 데이터)의 MSE는 일정 시점 이후 증가 간단한 모형일수록 under fitting이 일어남. 따라서 적당한 분산과 편파성을 가진 모델을 찾아야 함. 데이터 분할 과적합(overfitting)을 방지하기 위해 전체 데이터를 학습 데이터(training), 검증 데이터(validation), 테스트 데이터(test)를 나누며 보통 비율은 5:3:2로 정함. training data : 모형 f를 추정하는데 필요 validation data : 추정한 모형 f가 적합한지 검증, validation을 보고 hyper parameter을 설정한다. test data : 최정적으로 선택한 모형의 성능 .. 2020. 3. 20.
[ML] 03. 딥러닝 주요 모델 Deep Learning main Model Deep Learning이란? Neural Network : 입력, 은닉, 출력층으로 구성된 모형으로서 각 층을 연결하는 노드의 가중치를 업데이트하면서 학습 Overfitting이 심하게 일어나고 학습시간이 오래 걸림 But, 다양한 layer을 통해 복잡한 데이터의 학습이 가능하도록 한다.(graphical representation learning) 알고리즘 및 GPU 발전이 deep learning의 부흥을 이끌었다. 다양한 형태로 발전(CNN, RNN, AutoEncoder등) 다양한 분야로 발전(Object detection, Image Resolution, Style transfer, colorization등) 네트워크의 구조의 발전(ResNET, .. 2020. 3. 16.
[ML] 02. Machine Learning 종류 선형 회귀분석(Linear Regression) 독립변수와 종속변수가 선형적인 관계가 있다라는 가정하에 분석. 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움. 의사결정나무(Decision Tree) 독립 변수의 조건에 따라 종속변수를 분리(비가 내린다 -> 농구를 하지 않는다) 이해하기 쉬우나 overfitting(과적합)이 잘 일어남. Overfitting 이란, 학습 데이터에 대해서는 좋은 결과를 내지만, 학습에 사용하지 않은 실제 테스트 데이터에 대한 결과는 오히려 더 나빠지는 것. Decision Tree 에서 Tree가 커지면 커질수록 점차 세밀한 분류가 가능해지지만, 학습 데이터에 특화될 가능성도 같이 커진다. KNN(K-Nearest Neighbor) 새로.. 2020. 3. 16.
[ML] 01. 지도학습, 비지도학습, 강화학습 지도학습(Supervised learning) y = f(x) 에 대하여 입력 변수와 출력 변수의 관계에 대하여 모델링 하는 것(Y에 대하여 예측 또는 분류) 회귀(regression) : 입력 변수에 대해서 연속형 출력 변수 Y를 예측 분류(classification) : 입력 변수에 대해서 이산형 출력 변수 Y를 예측 ex) 성별, 흡연 여부등 비지도학습(Unsupervised learning) 출력 변수가 존재하지 않고, 입력 변수간의 관계에 대해 모델링 군집 분석 - 유사 데이터끼리 그룹화 주성분 분석(PCA - Principal Component Analysis) - 독립변수들의 차원을 축소화 고차원의 데이터를 저차원의 데이터로 환원시키는 기법. 강화 학습(Reinforcement learnin.. 2020. 3. 16.
[ML] 00. Machine Learning Curriculum 커리큘럼 Machine Learning 개념 회귀분석 - 통계학, 회귀분석, PCA ML 알고리즘 - KNN, LDA, SVM, DecisionTree Ensemble Learing - Bagging, Boosting, RandomForest, Stacking Clustering - Kmeans, Hierachical, DBSCAN Class imbalacnced problem - Oversampling, Undersampling Machine Learning이란 기계 학습 또는 머신 러닝은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 - 위키백과 데이터(x)를 가지고 무엇을(y) 예측하는 것 1.y = f(x) 에서 알고리즘(함수)를 만드는 것. 2.주어진 .. 2020. 3. 16.