사실 머신러닝이 딥러닝을 포함하는 개념이지만
본 포스팅에서는 뉴럴 네트워크 기반의 모델을 딥러닝으로, 그 외의 모델들을
머신러닝으로 지칭하기로 한다.
우리는 데이터로부터 어떤 현상이나 규칙을 포착해내기 위해서 모델링을 진행한다.
즉, 우리가 관심이 있는 변수 y가 다른 변수들(x1,x2,...)와 어떤 (함수) 관계가 있는지 파악하고 이를 통해
미래의 y를 예측하거나, 현상을 설명하고자 한다.
요즘에는 딥러닝 모델들이 AI를 대표하면서 뛰어난 성능을 보이고 있다.
그런데 딥러닝이 과연 항상 최선일까? 머신러닝이 딥러닝을 이길 수도 있지 않을까?
답은 데이터의 질(quality)과 개수에 달려 있다. 머신러닝이나 딥러닝 모두 데이터를 먹이(feeding)로 주어야 이를 통해 스스로 학습하면서 유용한 모델로써 자리잡게 된다.
보통 데이터의 개수가 많으면 딥러닝 모델이 유리하고, 데이터의 개수가 적으면 전통적인 통계모델이나 머신러닝 모델이 더 유리한 것으로 알려져있다. 그리고 데이터의 개수를 떠나서 데이터의 질(quality) 역시 모델에 상당한 영향을 줄 것이다. 이는 요즘에 훈련 데이터의 질에 집중을 하는 Data centered AI가 관심을 많이 받는 이유다.
전통적인 통계 모형 또는 머신러닝 모형에는 KNN, Linear Regression, Logistic Regression, Decision Tree, Random Forest, Boosting, Support Vector Machine, Gaussian Process 등이 있다. 한편 이 모형들은 학습 방식에 따라 모수적 방법(parametric model)과 비모수적 방법(non-parametric model)로 나뉜다.
여기서 모수적 방법 (parametric model)이란 데이터에서 나타나는 패턴이 어떤 정해진 함수관계 또는 분포로 이루어져 있다고 가정하여, 그 함수의 파라미터들을 집중적으로 추정하는 것을 말한다. 예를 들어, 선형회귀모형(Linear Regression)의 경우 설명변수와 종속변수간의 관계가 선형함수라고 가정하여 주어진 데이터를 통해서 기울기와 절편을 추정하는데에 집중한다. 많은 전통적 통계방법론들은 모수적 방법에 의존하고 있다. 그래서 모수에 대한 추정량의 종류가 많으며 ~추정량 같은 이론이 많이 있는 것이다. (예를 들면 최소분산불편추정량(umvue) 나 최대가능도추정량(mle) 같은 것이 있다.)
한편, 비모수적 방법 (non-parametric model)은 데이터에서 나타나는 패턴의 함수관계를 미리 정의해두지 않는다. (따라서 사실 대부분의 머신러닝 모델들은 비모수적 방법이라고 볼 수 있다. 비모수적 방법의 대표적인 예로 KNN(K-Nearest Neighbor)이 있다.
KNN은 k의 값을 고정하였을 때, 훈련 데이터의 형태에 따라 함수관계가 매우 유연하게 모델링된다.
이처럼 비모수적 방법은 함수관계를 미리 정의해두지 않으므로, 데이터에서 나타나는 패턴을 매우 다양하게 모델링할 수 있지만, 과적합(overfitting)의 문제가 있으며 함수관계가 명확하게 명시되어있지 않으므로 모델의 해석에 어려움이 있을 수 있다.
%출처 : "An Introduction to Statistical Learning: with Applications in R (Springer Texts in Statistics)", G James et al.(2013)
'데이터 사이언스 > 머신러닝 & AI' 카테고리의 다른 글
크로스엔트로피와 최대가능도추정량(MLE)간의 관계 (0) | 2022.08.17 |
---|---|
엔트로피, 크로스엔트로피, 쿨벡라이블러 다이버전스 (0) | 2022.08.15 |
딥러닝 시계열 모형 Neural prophet (in Python) (0) | 2022.08.15 |
비선형 모델 및 머신러닝에 대하여 (feat. 튜닝) (0) | 2022.08.05 |
[NLP] Character based tokenization (0) | 2022.06.13 |