L1正则化与嵌入式特征选择(稀疏性)-白红宇的个人博客

发布日期：2025-04-04 00:13:38 浏览次数：12 分类：精选文章

本文共 926 字，大约阅读时间需要 3 分钟。

岭回归是一种在线性回归模型中引入L2正则化的方法，至今仍然是机器学习中的经典算法。这一技术的历史可以追溯到1943年A.Tikhonov的《苏联科学院院刊》上的论文，也见证了计算机发明后的重要发展。

给定形状为 ( D = {(x_1, y_1), (x_2, y_2), \ldots, (x_m, y_m)} ) 的数据集，其中 ( x ) 的维度为 ( d )，( y ) 属于实数域。我们通常考虑最简单的线性回归模型，采用平方误差作为损失函数，目标是最小化预测误差，使得模型能够拟合数据。

正则化是一种在优化目标函数时引入惩罚项的技术，通过增加额外的常数因子 ( \lambda )（或 ( \alpha )）施加惩罚。目标函数中曾经加入这一项的参数会倾向于选择较小的值。L1正则化和L2正则化是两种常见的正则化方法，其中L2正则化又被称为岭回归。

带L1正则化的线性回归目标函数可以表示为：

[J(w, \lambda_1) = \frac{1}{2m} \sum_{i=1}^m (y_i - w^T x_i)^2 + \lambda_1 \sum_{j=1}^d |w_j|]

而带L2正则化的目标函数（即岭回归）表示为：

[J(w, \lambda_2) = \frac{1}{2m} \sum_{i=1}^m (y_i - w^T x_i)^2 + \lambda_2 \sum_{j=1}^d w_j^2]

比较这两种正则化方法，L1正则化更倾向于产生稀疏解，即模型仅保留那些显著贡献的特征。例如，在特征数量较多的模型中，L1正则化会使得许多权重 ( w_j ) 为零，从而实现特征选择。

可以通过绘制等值线来直观理解正则化的作用。在 ( w_1 ) 和 ( w_2 ) 空间中，平方误差等值线与L1范数等值线的交点通常位于坐标轴附近，而平方误差等值线与L2范数等值线的交点则更倾向于位于象限中。这种差异表明，L1正则化更容易产生稀疏解。

通过这种方式，正则化不仅能够降低模型的过拟合风险，还可以提高模型的泛化能力，同时使得模型更容易解释和理解。L1正则化与L2正则化在各自的优势中都展现了独特的魅力，但应用场景和目标效果有所不同。

上一篇：L2-003. 月饼（贪心）

下一篇：L1与L2正则化中“|| ||”是什么意思

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！