본문 바로가기

전체 글

(66)
TextCNN TextCNN CNN 모델을 이용해 Text의 feature 추출 및 classification에 사용할 수 있도록 한 모델입니다. 이미지 Classification 및 feature 추출에만 사용하던 CNN을 텍스트 처리에도 사용하게 되었습니다. 문장에 있는 단어를 Word2Vec 등을 이용해 하나의 vector로 변환한 뒤, 순서대로 위에서 아래로 나열합니다. filter의 폭은 단어 vector 크기인 n, 높이는 한 번에 보고 싶은 단어 수(필터 크기)로 합니다. 필터 크기는 3, 4, 5 등등 여러 개를 사용할 수 있습니다. Output layer는 activation function으로 softmax를 이용합니다. 참고 자료 TextCNN 논문 CNN으로 문장 분류하기 TextCNN 2D Co..
Natural Language Processing 기초 개념 Language understanding NLU (Neural Language Understanding)는 작성된 텍스트의 의미를 이해하는 것입니다. 즉, 텍스트를 의미 형태로 변환하는 것입니다. named-entity recognition, question answering, sentiment analysis 등이 있습니다. NLG (Neural Language Generating)은 특정한 입력을 조건으로 해서 텍스트를 생성하는 것입니다. 즉 의미 형태로 되어 있는 vector 등을 텍스트로 변환합니다. machine translation, conversational response generation 등이 있습니다. Language Model Language Model은 단어 시퀀스에 대..
mAP IoU (Intersection over Union) Ground Truth 영역과 Prediction 영역이 있을 때, 아래와 같이 정의한다. (두 영역의 교집합) / (두 영역의 합집합) precision-recall curve (PR curve) threshold 조절에 따른 precision과 recall 값의 변화를 표현한 그래프. AP (Average Precision) 여러 알고리즘의 성능을 정량적으로 비교하기 위해 사용하는 값. threshold에 따라 precision과 recall은 변하게 되는데, threshold와 상관 없이 둘 다 좋으면 이 모델의 성능이 좋다는 것을 의미한다. 주로 컴퓨터 비전의 object detection의 성능 평가에 사용한다. IoU가 0.5 이상이면 물체..
평가지표 a. Macro & micro average macro average 클래스 별 f1 score에 가중치를 주지 않습니다. 클래스의 크기에 상관 없이 모든 클래스를 같은 비중으로 다룹니다. (학교의 각 반 성적) micro average 모든 클래스의 FP, FN, TP, TN의 총 수를 센 후 precision, recall, f1 score를 수치로 계산합니다. 전체적인 성능을 나타냅니다. (전체 학생들의 성적) 각 샘플을 똑같이 간주한다면 micro average, 각 클래스를 동일한 비중으로 고려하면 macro average 사 03. Edit distance 두 문자열의 유사도를 판단합니다. 문자열 A를 B로 바꾸기 위해 필요한 연산의 최소 횟수를 계산합니다. 비교할 두 문자가 같으면 : cos..