K折交叉验证和pipeline
发布日期:2021-07-01 02:16:23 浏览次数:2 分类:技术文章

本文共 611 字,大约阅读时间需要 2 分钟。

KFold模块

from sklearn.model_selection import KFold

为什么要使用交叉验证?交叉验证的介绍

交叉验证是在机器学习建立模型和验证模型参数时常用的办法。 交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。

那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。 它的基本想法就是重复地使用数据:把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。 比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集,最终决定使用哪个模型以及对应参数。

交叉验证的目的是为了能有效地估计模型的泛化能力 (测试误差),从而进行模型选择。 评估模型,然后通过的出来的准确率,我们再进行模型选择。

K折

转载地址:https://maoli.blog.csdn.net/article/details/91355163 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Adaboost算法
下一篇:可视化总结

发表评论

最新留言

逛到本站,mark一下
[***.202.152.39]2024年04月08日 07时19分00秒