K折交叉验证和pipeline-白红宇的个人博客

K折交叉验证和pipeline

发布日期：2021-07-01 02:16:23 浏览次数：2 分类：技术文章

本文共 611 字，大约阅读时间需要 2 分钟。

KFold模块

from sklearn.model_selection import KFold

为什么要使用交叉验证？交叉验证的介绍

交叉验证是在机器学习建立模型和验证模型参数时常用的办法。 交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

那么什么时候才需要交叉验证呢？交叉验证用在数据不是很充足的时候。它的基本想法就是重复地使用数据：把给定的数据进行切分，将切分的数据集组合为训练集和测试集，在此基础上反复地进行训练、测试以及模型选择。比如在我日常项目里面，对于普通适中问题，如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话，我们一般随机的把数据分成三份，一份为训练集（Training Set），一份为验证集（Validation Set），最后一份为测试集（Test Set）。用训练集来训练模型，用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集，最终决定使用哪个模型以及对应参数。

交叉验证的目的是为了能有效地估计模型的泛化能力 (测试误差)，从而进行模型选择。 评估模型，然后通过的出来的准确率，我们再进行模型选择。

K折

转载地址：https://maoli.blog.csdn.net/article/details/91355163 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Adaboost算法

下一篇：可视化总结

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

KFold模块

为什么要使用交叉验证？交叉验证的介绍

K折

发表评论

最新留言

关于作者

推荐文章