본문 바로가기

전체 글

(66)
경사 하강법을 이용한 신경망 학습 1. 기존 머신러닝과 딥러닝의 특징 사람이 생각한 알고리즘을 이용한 분류 사람이 생각한 특징(SIFT, HOG 등)을 추출하고, 기계학습(SVM, KNN 등)으로 분류 신경망을 통해 분류. 데이터만 주어지면 특징 추출, 분류 모두 자동으로 진행된다. 2. 손실 함수 신경망 성능의 나쁨을 나타내는 지표로, 평균 제곱 오차나 교차 엔트로피 오차 등을 사용합니다. 신경망은 미분을 이용해서 이 함수의 값을 줄이는 것을 목표로 학습합니다. 평균 제곱 오차(Mean Squared Error, MSE) y_k는 신경망의 출력, t_k는 One-Hot Encoding된 정답 레이블, k는 데이터의 차원 수. 교차 엔트로피 오차(Cross Entropy Error, CEE) t_k 값은 정답 레이블에선 1, 나머지는 0..
Image Processing 기본 개념 딥러닝에서 이미지를 처리할 때 CNN (Convolution Neural Network)을 많이 사용하고 있습니다. ImageNet 홈 페이지: http://www.image-net.org/ WordNet의 명사들과 관련된 이미지를 모아 두는 프로젝트입니다. WordNet은 단어 간의 관계를 트리 형태로 나타낸 프로젝트이므로, ImageNet 또한 트리 형태로 이미지가 분류되어 있습니다. 100만 장이 넘는 이미지로 되어 있어서 데이터 크기가 매우 큽니다. 따라서 ImageNet 데이터는 Transfer Learning에 사용되기도 합니다. ImageNet 데이터를 이용한 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)라는 Image Cl..
토큰화 : Tokenize Tokenize 1) 토큰화 a. 문장으로 토큰화 nltk.tokenize.sent_tokenize : 주어진 텍스트를 개별 문장으로 토큰화. 예시import nltk from nltk.tokenize import sent_tokenize text = "a! bc. d. e? f~ g)" text2 = "hi! my name is soyoung. and you? um~ ex)" print(sent_tokenize(text)) print(sent_tokenize(text2)) * 결과['a!', 'bc.', 'd. e?', 'f~ g)'] ['hi!', 'my name is soyoung.', 'and you?&#..
한국어 문법 짚고 넘어가기 한국어 문법 짚고 넘어가기 한국어 NLP 를 위하여 한국어 문법에 대해 조금 더 자세히 알아보도록 한다. 한국어의 상,하 개념 :문단 > 문장 > 구절(구,절) > 어절 > 단어 > 형태소 > 음절 > 음운(음소,운소) 1. 음운 말의 뜻을 구별해 주는 소리의 가장 작은 단위. 음운 = 음소 + 운소 음소 더 이상 작게 나눌 수 없는 음운론상의 최소 단위 국어의 자음, 모음 운소 단어의 의미를 분화하는 데 관여하는 음소 이외의 운율적 특징 음의 높낮이, 길이, 세기 * 자소와 음소 자소 : 글자 상의 분절표기 요소 음소 : 발음 상의 분절음 요소 ex) 국물 : ㄱㅜㄱㅁㅜㄹ 발음 상으로는 ㄱㅜㅇㅁㅜㄹ 자소 'ㄱ'은 음소 'ㄱ', 'ㅇ'와 대응 2. 음절 하나의 ..