机器学习面试(六)
发布日期:2021-05-06 11:07:59 浏览次数:28 分类:精选文章

本文共 903 字,大约阅读时间需要 3 分钟。

  1. 为什么正则化能降低过拟合程度,并且说明L1和L2正则化

在这里插入图片描述

结构风险最小化角度:

结构风险最小化: 在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
当加入L2正则化的时候,分析和L1正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比,我们这样求的L2范数的从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴。因此这也就是我们老说的,L2范数能让解比较小(靠近0),但是比较平滑(不等于0)。
综上所述,我们可以看见,加入正则化项,在最小化经验误差的情况下,可以让我们选择解更简单(趋向于0)的解。

结构风险最小化: 在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。

因此,加正则化项就是结构风险最小化的一种实现。

降低过拟合程度:

正则化之所以能够降低过拟合的原因在于,正则化是结构风险最小化的一种策略实现。

给loss function加上正则化项,能使得新得到的优化目标函数h = f+normal,需要在f和normal中做一个权衡(trade-off),如果还像原来只优化f的情况下,那可能得到一组解比较复杂,使得正则项normal比较大,那么h就不是最优的,因此可以看出加正则项能让解更加简单,符合奥卡姆剃刀理论,同时也比较符合在偏差和方差(方差表示模型的复杂度)分析中,通过降低模型复杂度,得到更小的泛化误差,降低过拟合程度。

L1正则化和L2正则化:

L1正则化就是在loss function后边所加正则项为L1范数,加上L1范数容易得到稀疏解(0比较多)。L2正则化就是loss function后边所加正则项为L2范数的平方,加上L2正则相比于L1正则来说,得到的解比较平滑(不是稀疏),但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度比较多,降低模型的复杂度。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

假设模型中有很多特征,其中不乏相关性特征,可以用L1消除一波共线性问题。在训练样本足够多的情况,然后尝试使用L2来防止过拟合问题。

  1. 卷积FLOPs计算
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
上一篇:最小编辑代价(牛客)
下一篇:leetcode周赛235

发表评论

最新留言

初次前来,多多关照!
[***.217.46.12]2025年04月02日 18时50分39秒