牛顿法
发布日期:2021-06-29 12:25:53 浏览次数:3 分类:技术文章

本文共 353 字,大约阅读时间需要 1 分钟。

损失函数在初始化参数下的泰勒展开的前几项 = 0 来近似 损失函数 = 0

迭代过程:

牛顿法是二阶收敛,梯度下降是一阶收敛,所以更快。

为什么深度学习不采用牛顿法及其衍生算法作为优化算法?

一句话:计算复杂,容易陷入鞍点。

下摘自

原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。 

原因二:即使可以得到梯度和Hessian矩阵,当输入向量的维度N较大时,Hessian矩阵的大小是N×N,所需要的内存非常大。 
原因三:在高维非凸优化问题中,鞍点相对于局部最小值的数量非常多,而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点,所以很容易陷入鞍点。

转载地址:https://bupt-xbz.blog.csdn.net/article/details/105344377 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:对深度学习目前以及未来的看法 (AI时代可能延后,但总会到来)
下一篇:Cascade RCNN

发表评论

最新留言

能坚持,总会有不一样的收获!
[***.219.124.196]2024年04月02日 14时04分10秒