此页面由 Cloud Translation API 翻译。

线性回归：梯度下降

梯度下降法是一种数学技巧，可迭代地找到能使模型产生最低损失的权重和偏差。梯度下降法通过重复以下过程（迭代次数由用户定义）来找到最佳权重和偏差。

模型开始训练时，权重和偏差会随机化为接近于零的值，然后重复执行以下步骤：

使用当前权重和偏差计算损失。
确定可减少损失的权重和偏差的移动方向。
将权重和偏差值沿可减少损失的方向移动少量距离。
返回到第 1 步，重复该过程，直到模型无法进一步减少损失为止。

下图概述了梯度下降法为找到可生成损失最低的模型的权重和偏差而执行的迭代步骤。

图 11. 梯度下降过程的图示。

图 11. 梯度下降是一种迭代过程，用于找到可使模型产生最低损失的权重和偏差。

点击加号图标，详细了解梯度下降背后的数学原理。

在具体层面上，我们可以使用一个小数据集（包含 7 个示例，分别表示汽车的重量（以磅为单位）和每加仑燃油行驶里程数）来逐步完成梯度下降：

以千为单位的英镑（特征）	每加仑燃油行驶的英里数（标签）
3.5	18
3.69	15
3.44	18
3.43	16
4.34	15
4.42	14
2.37	24

模型通过将权重和偏差设置为零来开始训练：

$$ \small{Weight:\ 0} $$ $$ \small{Bias:\ 0} $$ $$ \small{y = 0 + 0(x_1)} $$

使用当前模型参数计算 MSE 损失：

$$ \small{Loss = \frac{(18-0)^2 + (15-0)^2 + (18-0)^2 + (16-0)^2 + (15-0)^2 + (14-0)^2 + (24-0)^2}{7}} $$ $$ \small{Loss= 303.71} $$

计算每个权重和偏置处损失函数切线的斜率：

$$ \small{Weight\ slope: -119.7} $$ $$ \small{Bias\ slope: -34.3} $$

点击加号图标，了解如何计算斜率。

为了获得与权重和偏差相切的直线的斜率，我们对损失函数相对于权重和偏差求导，然后求解方程。

我们将预测方程写为：
$ f_{w,b}(x) = (w*x)+b $。

我们将实际值写为：$y$。

我们将使用以下公式计算 MSE：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
其中，$i$ 表示第 $i$ 个训练样本，$M$ 表示样本数量。

权重导数

损失函数相对于权重的导数可写为：
$ \frac{\partial }{\partial w} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

并计算出以下结果：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2x_{(i)} $

首先，我们将每个预测值减去实际值，然后将其乘以特征值的两倍。然后，我们将总和除以示例数量。结果是与权重值相切的直线的斜率。

如果我们求解此方程，并将权重和偏差设为零，则会得到 -119.7 的直线斜率。

偏差导数

损失函数相对于偏差的导数可写为：
$ \frac{\partial }{\partial b} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

并计算得出：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2 $

首先，我们计算每个预测值与实际值之差的总和，然后将该总和乘以 2。然后，我们将总和除以样本数量。结果是与偏差值相切的直线的斜率。

如果我们求解此方程，并将权重和偏差设为零，则会得到 -34.3 的直线斜率。

沿负斜率方向移动少量距离，即可得到下一个权重和偏差。目前，我们将任意定义“少量”为 0.01：

$$ \small{New\ weight = old\ weight - (small\ amount * weight\ slope)} $$ $$ \small{New\ bias = old\ bias - (small\ amount * bias\ slope)} $$ $$ \small{New\ weight = 0 - (0.01)*(-119.7)} $$ $$ \small{New\ bias = 0 - (0.01)*(-34.3)} $$ $$ \small{New\ weight = 1.2} $$ $$ \small{New\ bias = 0.34} $$

使用新的权重和偏差计算损失并重复此过程。完成六次迭代后，我们将获得以下权重、偏差和损失：