数据预处理的概念-白红宇的个人博客

数据预处理的概念

发布日期：2021-07-01 02:16:22 浏览次数：2 分类：技术文章

本文共 584 字，大约阅读时间需要 1 分钟。

数据的预处理

通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：

不属于同一量纲： 即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。

信息冗余： 对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。

定性特征不能直接使用： 某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征：假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。

存在缺失值： 缺失值需要补充。

信息利用率低： 不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征哑编码可以达到非线性的效果。类似地，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。

我们 使用sklearn中的preproccessing库 来进行数据预处理，可以覆盖以上问题的解决方案。

转载地址：https://maoli.blog.csdn.net/article/details/91355032 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：可视化总结

下一篇：一、专栏作者润森闲谈数据分析

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

数据的预处理

发表评论

最新留言

关于作者

推荐文章