반응형
분류 (Classification)
분류(Classification)는 데이터를 사람이 미리 label을 달아 둔 class로 나누는 방법입니다. 데이터는 하나의 class에 속할 수도 있고, 여러 class에 속할 수도 있습니다.
사람이 매긴 label 없이 데이터를 묶는 Clustering(군집화)와는 달리, 사람이 지정한 label 기반으로 데이터를 묶는 차이점이 있습니다.
- 사진 분류: 사진의 object(사람, 자동차, ...)를 구분할 수 있습니다.
- 텍스트 분류: 텍스트의 주제 등을 분류할 수 있습니다.
- 음성 인식: 들어온 음성이 어떤 음절인지 분류할 수 있습니다.
(1) KNN Classification
KNN Classification(K-nearest neighbor classification)이란, 새로운 데이터가 주어지면 label이 있는 데이터 중에서 가장 가까운 k개의 이웃 정보로 새로운 데이터를 예측하는 방법입니다.
KNN Classification은 Lazy Model, Instance-based Learning입니다. 모델을 별도로 학습하지 않고, 새로운 데이터와 기존 데이터의 거리를 이용하기 때문입니다.
- 분류: 가장 가까운 k개의 데이터 중, 가장 많은 label을 따라갑니다.
- 회귀: 가장 가까운 k개의 데이터의 평균값을 예측값으로 합니다.
Label이 있는 데이터를 이용하므로 Supervised Learning(지도 학습)입니다.
KNN의 하이퍼파라미터 (hyper-parameter)는, 탐색할 이웃 수의 k가 있습니다. 이 값이 너무 작으면 지역적 특성을 과하게 반영하여 overfitting이 발생합니다. 너무 크면 모델이 과하게 단순해지는 underfitting이 발생합니다. 이 k 값은 데이터의 특성에 따라 튜닝해야 합니다.
이웃 간의 거리는 Euclidean Distance, Manhattan Distance 등을 이용합니다.
reference
반응형
'인공지능 시작하기 > Machine Learning 이해하기' 카테고리의 다른 글
게임에서의 강화학습 (0) | 2020.04.12 |
---|---|
Clustering (0) | 2020.04.12 |
Regression (0) | 2020.04.12 |