牛顿法-白红宇的个人博客

牛顿法

发布日期：2021-06-29 12:25:53 浏览次数：3 分类：技术文章

本文共 353 字，大约阅读时间需要 1 分钟。

迭代过程：

牛顿法是二阶收敛，梯度下降是一阶收敛，所以更快。

为什么深度学习不采用牛顿法及其衍生算法作为优化算法？

一句话：计算复杂，容易陷入鞍点。

下摘自

原因一：牛顿法需要用到梯度和Hessian矩阵，这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式，遑论直接得到其梯度表达式，更不要说得到基于梯度的Hessian矩阵了。

原因二：即使可以得到梯度和Hessian矩阵，当输入向量的维度N较大时，Hessian矩阵的大小是N×N，所需要的内存非常大。

原因三：在高维非凸优化问题中，鞍点相对于局部最小值的数量非常多，而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点，所以很容易陷入鞍点。

转载地址：https://bupt-xbz.blog.csdn.net/article/details/105344377 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

下一篇：Cascade RCNN

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！