亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

簡單解釋Momentum,RMSprop,Adam優化算法 96

我们初学的算法一般都是从SGD入门的,参数更新是:

https://img1.sycdn.imooc.com//5d2fd1ba0001241101870083.jpg

它的梯度路线为:

https://img1.sycdn.imooc.com//5d2fd1bd0001c4fe07150120.jpg

但是可以看出它的上下波动很大,收敛的速度很慢。因此根据这些原因,有人提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几次波动的平均值当做这次的W。这个就用到理论的计算梯度的指数加权平均数,引进超参数beta(一般取0.9):

https://img1.sycdn.imooc.com//5d2fd1c10001e20502540165.jpg

beta和1-beta分别代表之前的dW权重和现在的权重。

效果图如下(红色):

https://img1.sycdn.imooc.com//5d2fd1c60001593f07160135.jpg

下面继续另一种加速下降的一个算法RMSprop,全称root mean square prop。也用到权重超参数beta(一般取0.999),和Momentum相似:

https://img1.sycdn.imooc.com//5d2fd1c900017cf702740171.jpg

其中dW的平方是(dW)^2,db的平方是(db)^2。如果严谨些,防止分母为0,在分数下加上个特别小的一个值epsilon,通常取10^-8。

效果图如下(绿色):

https://img1.sycdn.imooc.com//5d2fd1cd000184d007060140.jpg

研究者们其实提出了很多的优化算法,可以解决一些问题,但是很难扩展到多种神经网络。而Momentum,RMSprop是很长时间来最经得住考研的优化算法,适合用于不同的深度学习结构。所以有人就有想法,何不将这俩的方法结合到一起呢?然后,pia ji一下,Adam问世了。全程Adaptive Moment Estimation。算法中通常beta_1=0.9,beta_2=0.999。

算法为(很明显看出是两者的结合,其中多了一步V和S的调节,t为迭代次数,除以1-beta^t表示越近的重要,越远的就可以忽视):

https://img1.sycdn.imooc.com//5d2fd1e00001d8f802410415.jpg

因为Adam结合上述两种优化算法的优点于一身,所以现在经常用的是Adam优化算法。



作者:zenRRan
链接:https://www.jianshu.com/p/548049548fb9


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消