이번 학기를 끝으로 학부생은 끝나고 다음학기 부터 석사를 시작할 예정이다.
연구실에 일한지 어느덧 2년정도 되어 몇몇 알고리즘을 사용도 해보고 실제 서비스에 적용도 해보았지만, 아직도 머신러닝의 개념이 명확하지 않은 느낌이 들었다. 또한, 앞으로 석사 때 딥러닝을 공부할 예정이기 때문에 딥러닝에 대하여 심도 있게 연구하기 위해서는 머신러닝의 개념들이 뒷받침 되어야 한다고 생각했다.



석사로 입학하여 연구를 시작하기에 앞서 머신러닝의 베이직한 개념부터 다양한 머신러닝 알고리즘을 앞으로 꾸준히 정리해 나갈 예정이다.


1. Supervised Learning(지도 학습)

지도학습(Supervised Learning)은 학습할 때 데이터에 대한 정답 라벨(Label) 을 이용하여 정답 값을 구하기 위한 함수 를 유추하는 학습방법이다. 지도 학습시 데이터를 트레이닝을 위한 데이터셋(training data-set) 과 테스트를 위한 테스트 데이터셋(test data-set) 으로 나누어 진행을 하여야한다. 머신러닝 알고리즘을 학습할 때는 트레이닝 데이터 셋(training data-set) 을 이용하여 학습 을 하고 테스트 데이터 셋(test data-set) 으로 성능을 측정 한다.

지도 학습(Supervised Learning)은 데이터가 많으면 많을수록 정답 데이터를 만드는데 시간과 비용이 많이 소모된다는 단점이 있지만, 쉽게 머신러닝 알고리즘에 적용이 가능하고 성능 측정 방법이 쉽다는 장점이 있다.

지도 학습을 사용하는 문제에는 다음과 같은 것들이 있다.

1) 분류(Classification)

데이터와 카테고리 간의 관계를 학습하여 데이터의 카테고리를 판별하는 방법이다. 카테고리는 클래스(class) 라고 불린다.
예측 하려는 값이 이산 값(discrete value)일 때 사용하는 방법이다.

ex) 이미지의 카테고리 예측하기, 스팸 / 비스팸 이메일 구분하기 등


http://cs231n.github.io/classification/



2) 회귀(Regression)

위의 분류(Classification) 가 데이터 셋트에 대하여 어떠한 특정 클래스를 찾는 문제였다면, 회귀(Regression) 는 어떤 X값 에 대하여 Y값 의 정답을 만족할 수 있는 최선의 방정식(equation) 을 찾는 것이다. 예측하려는 값이 연속된 값(continuous value)일 때 사용하는 방법이다.
이때 성능 측정은 내가 예측한 y’ 값과 정답 y 값의 차이를 비교하는 방법으로 RMSE(평균 제곱근 오차, Root Mean Square Error)를 낮추는 것을 목표로 한다.

ex) 학생의 점수 분포를 이용하여 예상 점수 예측하기, 부동산 가격 예측, 주가 예측 등



2. Unsupervised Learning(비 지도 학습)

비지도 학습(Unsupervised Learning)은 데이터만 보고 분석하여 특징이 비슷한 데이터끼리 그룹을 지어 주는 것이다. 이것을 군집화(Clustering, 클러스터링) 라고 한다. 비지도 학습은 데이터의 숨겨진 특징(Feature) 이나 분포, 구조를 밝혀내는데 사용된다.

비지도 학습은 정답 라벨(Label)이 주어지지 않기 때문에, 예측한 값이 정답에 가까운지 아닌지 확인 할 수 없다. 따라서, 비지도 학습을 사용하는 경우는 유사한 사용자끼리 군집화(Clustering) 할 때 또는 비슷한 특징을 가지는 기사들을 군집화(Clustering) 할 때 등에 사용 될 수 있다.


https://www.mailman.columbia.edu/research/population-health-methods/cluster-analysis-using-k-means






Reference
  • CS231n 강의 자료 : http://cs231n.github.io/classification/
  • https://www.mailman.columbia.edu/research/population-health-methods/cluster-analysis-using-k-means
  • 모두를 위한 머신러닝 / 딥러닝 : https://hunkim.github.io/ml/
  • 솔라리스의 인공지능 연구실 : http://solarisailab.com/archives/1785
  • http://mangkyu.tistory.com/32