机器学习 数据预处理之One-Hot Encoding
发布日期:2021-10-10 05:31:23
浏览次数:54
分类:技术文章
本文共 1329 字,大约阅读时间需要 4 分钟。
机器学习 数据预处理之One-Hot Encoding
文章目录
pip安装
Python有两个著名的包管理工具easy_install.py和pip。在Python2.7的安装包中,easy_install.py是默认安装的,而pip需要我们手动安装。
- curl -o
- sudo python
sklearn安装
- sudo pip install sklearn
简介
以前学习过One-Hot-Encoding,最近想写一篇笔记,也查看了网上的例子,网上基本都是一个例子,但是感觉描述的不是很清晰,所以写了这篇文章。
很多机器学习任务中,特征并不总是连续值,有可能是分类值,比如下面的示例。示例中有三个特征,每个特征有不同的取值。
["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]
如果将上述特征用数字表示,效率会高很多。例如:
["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]
但是,转化为数字表示后,上述数据不能直接用在我们的分类器中。因为,分类器往往默认数据数据是连续的,并且是有序的。但按上述表示的数字并不有序的,而是随机分配的。
One-Hot Encoding
解决上述问题的一种方法是采用One-Hot Encoding。
独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
例如:
自然状态码为:000,001,010,011,100,101独热编码为:000001,000010,000100,001000,010000,100000
可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。
这样做的好处主要有:
- 解决了分类器不好处理属性数据的问题
- 在一定程度上也起到了扩充特征的作用
基于python和Scikit-learn的一个简单例子:
encoder = preprocessing.OneHotEncoder()encoder.fit([ [0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()print("\n Encoded vector =", encoded_vector)
运行结果
('\n Encoded vector =', array([[0., 0., 1., 0., 1., 0., 0., 0., 1., 1., 0.]]))
转载地址:https://blog.csdn.net/qq_22054285/article/details/86736870 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
不错!
[***.144.177.141]2024年03月25日 09时35分25秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
mysql表复制操作
2019-04-25
【Android面试题】Activity的生命周期
2019-04-25
【Android面试】Activity的四种启动模式
2019-04-25
【Android面试】Fragment相关
2019-04-25
最新Android Studio布局不能预览问题
2019-04-25
Android EditText去掉下划线
2019-04-25
OkHttpUtils中出现的坑(Error只打印code错误码)
2019-04-25
比TakePhoto好点的Android图片选择器
2019-04-25
OkhttpUtils文件上传
2019-04-25
getSupportFragmentManager方法报红
2019-04-25
Android 仿新浪微博热门榜单滑动效果
2019-04-25
windows下安装python3
2019-04-25
Windows下安装Android Studio
2019-04-25
python去重
2019-04-25
Linux目录结构及用途
2019-04-25
Linux下查看隐藏文件命令
2019-04-25
MySQL查询语句(重点分类)
2019-04-25
Windows 7 下Maven的下载安装配置 (配置本地仓库及修改路径)
2019-04-25
win7环境下java jdk环境变量的配置
2019-04-25