算法总结（二）关于神经网络-白红宇的个人博客

算法总结（二）关于神经网络

发布日期：2021-06-29 06:03:30 浏览次数：2 分类：技术文章

本文共 2058 字，大约阅读时间需要 6 分钟。

牛顿法

求解

当用消元法无法得到解的时候，就需要考虑数值解，常用的解决方法就有牛顿法

以下为推导过程

先进行泰勒展开

当的时候，即 ,有

即：

也因此得到了牛顿法的公式

最优问题

通常的最优问题为

即求方程

利用牛顿法就是

多维问题

以上优化的是单变量，当我们遇到方程组的时候，优化变得复杂起来

其中

先回顾以下雅可比矩阵

而海塞矩阵为：

非线性方程组的最优化问题可以写成

当我们的目标函数为

则梯度方向上的分量为：

Hessian矩阵的元素则直接在梯度向量的基础上求导

高斯牛顿法省略了二次偏导，即：

把雅可比矩阵和黑塞矩阵带入就有：

于是，非线性方程组的迭代形式为：

Levenberg-Marquardt算法

来问贝格-马库特方法是对上述方法做了简单的修改，迭代形式变成了

当我们取较小的λ ，它就是高斯牛顿法，而取较大的λ ，则更像梯度下降法

梯度下降法

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率。

在多变量函数中，梯度是一个方向，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

梯度迭代的公式如下：

其中，表示多维向量，表示学习率。

到这里我们可以发现Levenberg-Marquardt算法，在λ 取较大值的时候，λ 就变成了学习率，Levenberg-Marquardt算法就近似为梯度下降法

神经网络

如图所示为一个神经网络，绿色一层为输入层，中间一层为隐藏层，最后一层为输出层

1. 神经元

首先关注一下单个神经元的输入

其中，n为上一层神经元的个数（说明以下，这里的写法仅是全连接的写法），wi 对应为上一层第i个神经元对于下一层神经元的权重，xi 上一层第i个神经元的输出，b为偏置

然就就有激活函数，所谓激活函数f，就是对y进行处理之后，作为该神经元的输出，有些模型里面有阈值θj ,有些就没有，这里我们认为没有

所以该神经元的输出就是

1. 激活函数

为了在优化求解的时候，能够找到最大梯度，所以，对应的激活函数必须可微，就是我们能求得倒数，常用的激活函数有以下几种：

1. 1. Sigmod函数

1. 1. Tanh函数

1. 1. ReLU函数

这个ReLU函数可能会存在一些问题，首先是如果进到负数区域，就是输入为负数的时候，你对它求导，它始终为负数，这就麻烦了，优化就停了

1. 单个神经元的梯度下降

假如我们所做的工作为分类工作，就假设为二分类，就只有最简单的三层，输入的训练数据类型为

其中，X为n维向量，在实际中，它是n个特征，Y对应我们的类型，这里我们简单的认为是0或者1

按照神经元模型，我们的隐藏层的输入为

隐藏层的输出为

好了，走到这里，我们前向传播了一次，那么这次结果如何呢？我们将它与给定的Y进行比较，则有，这里假设只有一个训练数据，则有

我们想要的结果是让loss最小，这就回到了梯度下降法，则有

我们把w和x扩展为W=(w b),X=(x 1)，现在考虑Wi ，则有

这里就求得了，还差一个学习率δ ，这个属于超参，不可以在BP里面做优化，不过，总有厉害的人想尽办法做优化，所以除了梯度下降法，又有人利用梯度的变化，例如Momentum就是利用历史梯度信息，对当前的梯度进行修改，引入了动力参数α ，NAG如出一辙，其实我自己认为这两个没有什么本质的区别，就是对于各种算法的组合