四、数据预处理——处理连续型特征:二值化与分段
发布日期:2021-05-08 02:34:47 浏览次数:21 分类:精选文章

本文共 304 字,大约阅读时间需要 1 分钟。

四、

点击标题即可获取文章相关的源代码文件哟!

- sklearn.preprocessing.Binarizer

根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作,分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤(例如,使用贝叶斯设置中的伯努利分布建模)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • preprocessing.KBinsDiscretizer
    这是将连续型变量划分为分类变量的类,能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
上一篇:PAT L1-072. 刮刮彩票
下一篇:PAT 7-28. 搜索树判断 (二叉搜索树)

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2025年03月29日 18时30分47秒