四、数据预处理——处理连续型特征：二值化与分段

发布日期：2021-05-08 02:34:47 浏览次数：21 分类：精选文章

本文共 304 字，大约阅读时间需要 1 分钟。

四、

点击标题即可获取文章相关的源代码文件哟！

- sklearn.preprocessing.Binarizer

根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作，分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

preprocessing.KBinsDiscretizer
这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数：

上一篇：PAT L1-072. 刮刮彩票

下一篇：PAT 7-28. 搜索树判断 (二叉搜索树)

发表评论

最新留言

路过按个爪印，很不错，赞一个！

[***.219.124.196]2025年03月29日 18时30分47秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

SQL注入 2019-03-06

MPI Maelstrom POJ - 1502 ⭐⭐ 【Dijkstra裸题】 2019-03-06

Problem 330A - Cakeminator （思维） 2019-03-06

LeetCode75 颜色分类（三路快排C++实现与应用） 2019-03-06

C语言+easyX图形库的推箱子实现 2019-03-06

调试vs2019代码的流程 2019-03-06

脱壳与加壳-加壳-6-代码实现加密导入表 2019-03-06

Typora配置PicGo时，提示Failed to fetch 2019-03-06

bcolz的新操作 2019-03-06

zmq的send 2019-03-06

阿里钉钉面试题 2019-03-06

C++中找资源或者函数的方法 2019-03-06

delete对象时会自动调用类的析构函数 2019-03-06

POD类型 2019-03-06

const与常量,傻傻分不清楚~ 2019-03-06

Head First设计模式——迭代器模式 2019-03-06

MongoDB版本及存储引擎区别 2019-03-06

shell echo单行和多行文字定向写入到文件中 2019-03-06

cmp命令 2019-03-06

Linux 磁盘管理(df fu fdisk mkfs mount) 2019-03-06

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 459582262 位访客

访问时间: 2025-04-19 21:23:35 访问IP: 18.225.254.112 Copyright © 2020 - 2025 css8.cn 京ICP备2021015314号-1 手机版