본문 바로가기

Learning/Optimizer

(3)
Initializer initializer 딥러닝 가중치의 값을 전부 0으로 초기화하면 오차역전파법에서 모든 가중치는 동일한 정도로 갱신되므로, 학습이 올바르게 이루어지지 않는다. 한 layer의 모든 가중치가 똑같은 값을 가지게 되어, 여러 가중치를 둔 의미가 없게 된다. 가중치를 전부 균일한 값 대신 무작위로 설정해야 한다. 은닉층의 활성화값 분포 분석 은닉층의 활성화값은 적당하게 균일하게 분포해야 학습이 잘 된다. 활성화값이 한쪽으로 치우쳤을 때 기울기 소실이 발생한다. 기울기 소실(Gradient Vanishing): 각 층의 활성화값이 한쪽으로 치우치게 되면 역전파의 기울기값이 점점 작아지다가 사라지게 된다. 활성화값이 가운데로 모이게 되면 표현력을 제한하는 문제가 생긴다. 기울기 소실은 발생하지 않는다. 각 가중치..
Optimizer 최적화: loss function의 값을 최대한 낮추는 매개변수, 즉 매개변수의 최적값을 찾는 과정 01. Optimizer의 종류 1-1. Gradient Descent Neural net의 weight를 조정할 때 사용하는 방법. 네트워크의 output과 실제 결과값 사이의 차이 loss를 최소화하기 위해 기울기를 이용한다. Gradient descent에서는 네트워크의 파라미터에 대해 gradient의 반대 방향으로 일정 크기만큼 이동하는 것을 반복하여 loss를 최소화하는 파라미터 값을 찾는다. 단점: 최적값을 찾아 한 칸 전진할 때마다 모든 data를 넣어줘야 한다. 학습이 굉장히 오래 걸린다. 1-2. 확률적 경사 하강법 (Stochastic Gradient Descent. SGD) 역전파하강..
Loss Function Loss Function(손실 함수)이란, 모델에서 생성된 값과 실제 데이터의 값이 차이나는 정도를 나타내는 함수입니다. 머신러닝 모델은 이 Loss function 값을 최소화하도록 학습합니다. Neural Network 또한, Backpropagation(역전파)을 이용해서 Loss function의 값을 최소화할 수 있도록 parameter 값을 바꾸는 방법으로 학습합니다. 2-1. Linear regression (MSE, Mean Square Error) (1) 정의 (2) 특징 주로 regression 문제에 사용합니다. (3) regression에 MSE를 쓰는 이유 Classification 과 같은 경우, 맞다/아니다가 판별이 가능하지만, 주식 가격 예측과 같은 수치 판단은 애매한 경우가..