Learning (12) 썸네일형 리스트형 Overfitting과 Underfitting 정의 및 해결 방법 만약 동일한 점들이 주어지고 이 점을 대표할 수 있는 함수(곡선)을 추정하는 경우에서, 가운데가 optimize하다고 한다면 왼쪽은 지나친 단순화로 인해 에러가 많이 발생해 underfitting이라 합니다. 오른쪽은 너무 정확하게 표현한 나머지 training data에 대한 정확도는 좋지만 실제 test에서는 에러가 날 수 있는 상황이라 overfitting이라 합니다. 모델은 과대적합(Overfitting)과 과소적합(Underfitting)이 발생하지 않도록 설계하는 것이 중요합니다. 1. Overfitting이란? Overfitting은 학습 데이터(Training Set)에 대해 과하게 학습된 상황입니다. 따라서 학습 데이터 이외의 데이터에 대해선 모델이 잘 동작하지 못합니다. 학습 데이터가 .. Initializer initializer 딥러닝 가중치의 값을 전부 0으로 초기화하면 오차역전파법에서 모든 가중치는 동일한 정도로 갱신되므로, 학습이 올바르게 이루어지지 않는다. 한 layer의 모든 가중치가 똑같은 값을 가지게 되어, 여러 가중치를 둔 의미가 없게 된다. 가중치를 전부 균일한 값 대신 무작위로 설정해야 한다. 은닉층의 활성화값 분포 분석 은닉층의 활성화값은 적당하게 균일하게 분포해야 학습이 잘 된다. 활성화값이 한쪽으로 치우쳤을 때 기울기 소실이 발생한다. 기울기 소실(Gradient Vanishing): 각 층의 활성화값이 한쪽으로 치우치게 되면 역전파의 기울기값이 점점 작아지다가 사라지게 된다. 활성화값이 가운데로 모이게 되면 표현력을 제한하는 문제가 생긴다. 기울기 소실은 발생하지 않는다. 각 가중치.. Optimizer 최적화: loss function의 값을 최대한 낮추는 매개변수, 즉 매개변수의 최적값을 찾는 과정 01. Optimizer의 종류 1-1. Gradient Descent Neural net의 weight를 조정할 때 사용하는 방법. 네트워크의 output과 실제 결과값 사이의 차이 loss를 최소화하기 위해 기울기를 이용한다. Gradient descent에서는 네트워크의 파라미터에 대해 gradient의 반대 방향으로 일정 크기만큼 이동하는 것을 반복하여 loss를 최소화하는 파라미터 값을 찾는다. 단점: 최적값을 찾아 한 칸 전진할 때마다 모든 data를 넣어줘야 한다. 학습이 굉장히 오래 걸린다. 1-2. 확률적 경사 하강법 (Stochastic Gradient Descent. SGD) 역전파하강.. Loss Function Loss Function(손실 함수)이란, 모델에서 생성된 값과 실제 데이터의 값이 차이나는 정도를 나타내는 함수입니다. 머신러닝 모델은 이 Loss function 값을 최소화하도록 학습합니다. Neural Network 또한, Backpropagation(역전파)을 이용해서 Loss function의 값을 최소화할 수 있도록 parameter 값을 바꾸는 방법으로 학습합니다. 2-1. Linear regression (MSE, Mean Square Error) (1) 정의 (2) 특징 주로 regression 문제에 사용합니다. (3) regression에 MSE를 쓰는 이유 Classification 과 같은 경우, 맞다/아니다가 판별이 가능하지만, 주식 가격 예측과 같은 수치 판단은 애매한 경우가.. 이전 1 2 다음