基本概念

课程中要经常使用的几个符号：

变量定义（符号 Notation）(术语 terminology)：

这里47个房子的面积-价格的数据集：

m = Number of training examples （训练样本的数目）

x’s = “input” variable （表示输入变量）/ features（特征）

y’s = “output” variable（表示输出变量） / “target” variable（目标变量）

e.g. (x,y)表示一个trainning example（样本）而（xi,yi)表示ith trainning example，也就是样本数据中的第几行.

监督学习一般处理流程：

首先找到一个训练集合（Training Set）

将由这个训练集合提供个训练算法（Learning Algorithm）

之后我们要让这个训练算法生成一个输出函数（常用 h 来表示这个函数，这个函数称之为假设[ hypothesis ]）

对于 h 函数，将它理解为一个x 到 y 上的映射

特征的数目一般被我们表示为 n

θ 是一个实数参数，例如，θ 0，θ 1，θ 2 ...

误差函数（cost function）：

我们希望算法的预测结果和实际的价格（房价）的平方差最小，用来选取参数theta

选择参数theta，以使得参数选取时，能使得预测价格和和实际价格的平方差最小

最后求解这个theta，最终使用

Gradient Descent 梯度下降算法

过程：

梯度下降法是按下面的流程进行的：

1）首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量。

2）改变θ的值，使得J(θ)按梯度下降的方向进行减少。

如图：

这是一个表示参数θ与误差函数J(θ)的关系图，红色的部分是表示J(θ)有着比较高的取值，我们需要的是，能够让J(θ)的值尽量的低。也就是深蓝色的部分。θ0，θ1表示θ向量的两个维度。在上面提到梯度下降法的第一步是给θ给一个初值，假设随机给的初值是在图上的十字点。然后我们将θ按照梯度下降的方向进行调整，就会使得J(θ)往更低的方向进行变化，如图所示，算法的结束将是在θ下降到无法继续下降为止。