본문 바로가기

인공지능 시작하기/Machine Learning 이해하기

Classification

반응형

분류 (Classification)

 

분류(Classification)는 데이터를 사람이 미리 label을 달아 둔 class로 나누는 방법입니다. 데이터는 하나의 class에 속할 수도 있고, 여러 class에 속할 수도 있습니다.

사람이 매긴 label 없이 데이터를 묶는 Clustering(군집화)와는 달리, 사람이 지정한 label 기반으로 데이터를 묶는 차이점이 있습니다.

 

  • 사진 분류: 사진의 object(사람, 자동차, ...)를 구분할 수 있습니다.
  • 텍스트 분류: 텍스트의 주제 등을 분류할 수 있습니다.
  • 음성 인식: 들어온 음성이 어떤 음절인지 분류할 수 있습니다.

 

(1) KNN Classification

KNN Classification(K-nearest neighbor classification)이란, 새로운 데이터가 주어지면 label이 있는 데이터 중에서 가장 가까운 k개의 이웃 정보로 새로운 데이터를 예측하는 방법입니다.

KNN Classification은 Lazy Model, Instance-based Learning입니다. 모델을 별도로 학습하지 않고, 새로운 데이터와 기존 데이터의 거리를 이용하기 때문입니다.

  • 분류: 가장 가까운 k개의 데이터 중, 가장 많은 label을 따라갑니다.
  • 회귀: 가장 가까운 k개의 데이터의 평균값을 예측값으로 합니다.

Label이 있는 데이터를 이용하므로 Supervised Learning(지도 학습)입니다.

KNN의 하이퍼파라미터 (hyper-parameter)는, 탐색할 이웃 수의 k가 있습니다. 이 값이 너무 작으면 지역적 특성을 과하게 반영하여 overfitting이 발생합니다. 너무 크면 모델이 과하게 단순해지는 underfitting이 발생합니다. 이 k 값은 데이터의 특성에 따라 튜닝해야 합니다.

이웃 간의 거리는 Euclidean Distance, Manhattan Distance 등을 이용합니다.

 

reference

반응형

'인공지능 시작하기 > Machine Learning 이해하기' 카테고리의 다른 글

게임에서의 강화학습  (0) 2020.04.12
Clustering  (0) 2020.04.12
Regression  (0) 2020.04.12