机器学习数据预处理之One-Hot Encoding

发布日期：2021-10-10 05:31:23 浏览次数：54 分类：技术文章

本文共 1329 字，大约阅读时间需要 4 分钟。

机器学习数据预处理之One-Hot Encoding

文章目录

pip安装

Python有两个著名的包管理工具easy_install.py和pip。在Python2.7的安装包中，easy_install.py是默认安装的，而pip需要我们手动安装。

curl -o

sudo python

sklearn安装

sudo pip install sklearn

简介

以前学习过One-Hot-Encoding，最近想写一篇笔记，也查看了网上的例子，网上基本都是一个例子，但是感觉描述的不是很清晰，所以写了这篇文章。

很多机器学习任务中，特征并不总是连续值，有可能是分类值，比如下面的示例。示例中有三个特征，每个特征有不同的取值。

["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用数字表示，效率会高很多。例如：

["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]

但是，转化为数字表示后，上述数据不能直接用在我们的分类器中。因为，分类器往往默认数据数据是连续的，并且是有序的。但按上述表示的数字并不有序的，而是随机分配的。

One-Hot Encoding

解决上述问题的一种方法是采用One-Hot Encoding。

独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

例如：

自然状态码为：000,001,010,011,100,101独热编码为：000001,000010,000100,001000,010000,100000

可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

这样做的好处主要有：

解决了分类器不好处理属性数据的问题

在一定程度上也起到了扩充特征的作用

基于python和Scikit-learn的一个简单例子：

encoder = preprocessing.OneHotEncoder()encoder.fit([    [0, 2, 1, 12],    [1, 3, 5, 3],    [2, 3, 2, 12],    [1, 2, 4, 3]])encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()print("\n Encoded vector =", encoded_vector)

运行结果

('\n Encoded vector =', array([[0., 0., 1., 0., 1., 0., 0., 0., 1., 1., 0.]]))

转载地址：https://blog.csdn.net/qq_22054285/article/details/86736870 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Boost智能指针——shared_ptr

下一篇：查看进程的启动时间

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

机器学习数据预处理之One-Hot Encoding

文章目录

pip安装

sklearn安装

简介

One-Hot Encoding

发表评论

最新留言

关于作者

推荐文章

机器学习 数据预处理之One-Hot Encoding

文章目录

pip安装

sklearn安装

简介

One-Hot Encoding

发表评论

最新留言

关于作者

推荐文章

机器学习数据预处理之One-Hot Encoding