adam, rms prop 등 최적화 방법 등이 너무 햇갈려서 블로그 포스팅으로 정리해본 적이 있다.
하지만, 조금의 수정사항을 발견해서 복습하면서 다시 정리해보고자 한다.
지난 번 내가 정리한 링크 : 딥러닝 여러 optimization 방법 정리
경사하강법 공식이 성립하는 이유
” Gradient is the direction of the steepest ascent “
칸 아카데미 multivariable calculus 에서 기억나는 것이라고는 이 말밖에 없다. 다시 들어야할 판 =_=
여기서 친절하게 증명도 해주고 시각적으로도 보여줬는데 결국, minimum 에 제일 빠르게 도달하는 방법을 알려주는 네비게이션 역할을 방향도함수가 한다는 것이다.
- 방항도 함수 : 각 방향으로의 순간 변화율
왔다갔다하는 진동 문제가 일어나는 이유
=> 각 weight 의 scale 이 다르기 때문이다. 즉 매번 step 을 밟을 때마다 어떠한 방향으로는 엄청 많이 업데이트해야하고, 또 다른 방향으론 적게 업데이트해야하는데 이게 우후죽순이다. 따라서 진동문제가 일어난다.