机器学习10：如何理解随机梯度下降？

随机梯度下降（Stochastic Gradient Descent, SGD）是一种广泛应用于机器学习和深度学习中的优化算法。为了帮助您理解这一概念，让我们从基础的梯度下降法出发，逐步探索其在批量梯度下降、随机梯度下降以及实际应用中的mini-batch梯度下降的差异及其收敛性。

梯度下降法

梯度下降法是优化过程的基石，许多机器学习算法都建立在此。优化的核心目标是通过调整模型参数（即权重θ），使得某种损失函数（Loss Function）达到最小化。最小化的问题可以通过最大化（通过引入负号）相应的目标函数来转换。在此过程中，梯度贡献了重要的方向指示：它显示出当前模型参数调整哪些方向能够使损失函数最快速地下降。

具体而言，梯度下降法通过以下公式进行实现： $$ \theta_{i+1} = \theta_i - a \cdot \frac{\partial J(\theta_i)}{\partial \theta_i} $$ 其中，a 是学习率，J(θ) 是损失函数，∂J/∂θ 是梯度。

在直观上，可以将损失函数看作一座山，梯度指向最陡下降方向。选取合适的步长a（学习率）能够平衡收敛速度和稳定性。学习率过大可能导致跳过最优解，而过小则会减缓收敛速度。

批量梯度下降、随机梯度下降与mini-batch梯度下降

随机梯度下降的核心创新是通过单个样本的梯度近似全局梯度，显著提升训练效率。然而，直接使用单个样本的梯度计算可能存在 accuracy 问题，因为小批次可能不足以准确反映整体梯度方向。因此，开发了批量梯度下降（Batch GD）和mini-batch梯度下降（mini-batch GD）作为折中的解决方案。

批量梯度下降：在批量梯度下降中，每次更新参数使用所有样本计算得到的梯度，整体更新幅度大。准确反映整体梯度，但在样本量较少时收敛较快。然而，随着样本量的增加，整体计算量可观提升，导致训练时间成本变大。

随机梯度下降：随机梯度下降通过每次仅使用一个随机样本来调整模型参数，尽管这可能导致每次更新梯度近似的误差，但计算速度显著提升。尽管局部梯度可能不准确，但随机性防止模型陷入局部最小值，整体收敛方向指向全局最优解。其更新公式为： $$ \theta_{i+1} = \theta_i - a \cdot \frac{\partial J(\theta_i)}{\partial \theta_i} + \delta $$ 其中δ是随机扰动项。

mini-batch梯度下降： mini-batch梯度下降结合了批量和随机梯度下降的优点。通过使用小批次样本，既保留了批量梯度更新的准确性，又维持了随机梯度下降的训练效率。该方法在现实深度学习应用中广泛使用。

收敛性分析

梯度下降方法的核心优势在于其一致性的收敛性。无论是批量、随机还是mini-batch梯度下降，都是通过样本分布近似优化问题的期望梯度方向。实际上，随机梯度下降甚至可以看作是无参数平均（无量纲SGD, SGD without mini-batch）的特例。

收敛性可从期望损失函数的角度分析。通过将样本按分布抽取，梯度下降对各个参数维度独立求极小值。针对凸问题，梯度下降会收敛到全局最小值，因为凸函数仅有一个最小值点。非凸情况下，则可能收敛到鞍点，但鞍点出现的几率较低。

总结

从单一样本到小批次，随机梯度下降方法不断优化，虽然局部梯度近似存在，但整体收敛方向正确。随着深度学习算法的日益复杂，随机梯度下降方法展现出其独特优势，在实际应用中占据重要地位。

上一篇：机器学习11：pytorch训练自定义数据集简单示例

下一篇：机器学习9:关于pytorch中的zero_grad（）函数

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！