【优化】一篇入门之-梯度下降算法

作者 : 老饼发表日期 : 2025-12-16 23:58:16 更新日期 : 2026-05-10 22:21:44

老饼讲解-简单易懂，干货满满，爽过嗦螺！

梯度下降算法(Gradient descent)是机器学习中最基本的优化算法，它基于目标函数的负梯度方向来迭代x，使得目标函数f(x)逐步下降。下面我们就来详细说说梯度下降算法的原理、算法流程，以及展示一个具体的梯度下降算法代码实现例子，最后再来谈下梯度下降法的优缺点。

一、梯度下降算法

往往我们希望优化目标函数，也就是找到一个来令尽量的小，如果f(x)连续可导，那这时候就可以使用梯度下降算法了，梯度下降算法基于目标函数的梯度，来不断迭代x，令f(x)逐步下降，它非常的简单，一说就懂，那就让我们直接来看看它是怎么干的吧。

1.1. 什么是梯度下降算法

有的同学可能忘记梯度是什么了，其实梯度就是导数，在一元函数中称为导数，在多元函数就称为梯度。而梯度下降算法呢，就是基于梯度来优化目标函数，它的做法如下：

梯度下降算法原理

如图所示，梯度下降算法先取一个初始值，然后进行迭代，每次都往梯度的反方向调整它，直到梯度很小时就退出训练，因为梯度很小时，就代表已经很平缓了，也就意味着可能达到局部最低点了。

1.3. 梯度下降-算法流程

好了，我们正式的来看一下梯度下降算法的算法流程，直接上图：

梯度下降算法流程

梯度下降法算的流程其实只有简单的几步:

1. 先初始化参数
2. 计算梯度
3. 往负梯度调整参数

    其中，lr是学习率，代表调整的步长
4. 检查是否达到终止条件，否则重复2、3
    终止的条件一般设为"达到最大训练次数"和"梯度过小"。

有同学可能会问lr是什么，lr是学习率(learning rate)，它用于控制调整的步长，一般设为0.1或0.01。

二、梯度下降法-进一步理解

梯度下降算法是简单的，但我们不妨加深一点对它的理解。

2.1. 为什么要往负梯度方向调整？

为什么梯度下降算法每次都要往负梯度方向调整呢？

在一元函数中，负梯度就是导数的反方向，在多元函数中，负梯度就是各个变量偏导数的反方向：

梯度的意义

如图，可以看到，梯度是函数瞬时上升最快的方向，而负梯度呢，就是函数瞬时下降最快的方向了，所以往负梯度方向调整，只要步长足够小，就能保证目标函数一定能下降，而且是下降最快的方向，也正因为这样，梯度下降算法往往也称为最速下降算法。

2.2. 关于初始化

事实上，梯度下降法对初始值是非常敏感的，我们先来上个图：

梯度下降-初始值的意义

如图所示，如果初始化在点A，那么最终能找到的就是局部最优值，而初始化在点B，最终就会找到全局最优值。总的来说，梯度下降法只能找到离初始值最近的局部极小值，如果初始化不好，找到的结果也不好。所以在用梯度下降法时，往往会采用随机初始化，然后多试几次，看看哪次的结果最好。

三、梯度下降法-实现代码

说了这么多，是时候来实操一下了，假设我们的目标函数为：

下面我们就用梯度下降算法，来求一下它的最小值。

由于梯度下降法需要使用目标函数的梯度，所以要先算出目标函数的梯度，如下：

，

接下来只需按梯度下降算法的流程，让解不断地往负梯度方向迭代就可以了。

梯度下降法具体实现代码如下：

"""
本代码用于展示梯度下降法求y= (x1-2)^2+(x2-3)^2的最小解
本代码来自《老饼讲解-机器学习》 www.bbblearn.com
"""
import numpy as np
x = np.array([0,0])                                        # 初始化x
lr = 0.1                                                   # 设置学习率
for i in range(100):                                       # 最大迭代100次
    dx = np.array([2*x[0]-4, 2*x[1]-6])                    # 计算x的梯度  
    x  = x - lr*dx                                         # 往负梯度方向更新x
    if((min(abs(dx))< 0.001) ):break                       # 如果梯度过小，则退出迭代
    y = (x[0]-2)**2+(x[1]-3)**2                            # 目标函数值
    print("第%d轮迭代:x=:[%f,%f],y=%f"%(i+1,x[0],x[1],y))  # 打印当前结果

代码运行结果如下：

梯度下降的优化结果