optimizer란? - 신경망 학습중 손실함수의 값을 낮추는 매개변수를 찾는 것을 의미한다. 4가지 optimizer 1. 확률적 경사 하강법(SGD, Stochastic Gradient Descent) SGD는 손실함수의 기울기를 계산한 후 그 기울기 값에 학습률(learning rate)를 곱하여 그 값을 기존의 가중치에 적용하여 갱신해준다. 단점은 기울기(미분값)가 0이 되면 가중치를 더이상 업데이트 하지 않는다. 따라서 local 극한값이 있을때에는 global극한값을 찾을 수 없고 안장점(saddle points)에 앉아버려 더 움직이지 못하는 경우도 있습니다. 2. 모멘텀(SGD with Momentum) SGD를 개선한 알고리즘으로 이동값에 관성으로 인한 업데이트가 추가된 방법이다. 기울기..