
100天搞定机器学习|Day11 实现KNN
发布日期:2021-05-09 04:02:37
浏览次数:17
分类:博客文章
本文共 1694 字,大约阅读时间需要 5 分钟。
机器学习100天|Day1数据预处理
100天搞定机器学习|Day2简单线性回归分析
100天搞定机器学习|Day3多元线性回归
100天搞定机器学习|Day4-6 逻辑回归
100天搞定机器学习|Day7 K-NN
100天搞定机器学习|Day8 逻辑回归的数学原理
100天搞定机器学习|Day9-12 支持向量机
Day7,我们学习了K最近邻算法(k-NN),了解了其定义,如何工作,介绍了集中常用的距离和k值选择。Day11,通过一个案例实现该算法。
第一步:导入相关库
import numpy as npimport matplotlib.pyplot as pltimport pandas as pd第二步:导入数据集dataset = pd.read_csv('../datasets/Social_Network_Ads.csv')
为了方便理解,这里我们只取Age年龄和EstimatedSalary估计工资作为特征X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values第三步:将数据划分成训练集和测试集fromsklearn.model_selectionimport train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size =0.25, random_state=0)第四步:特征缩放from sklearn.preprocessing import StandardScaler
sc = StandardScaler()X_train = sc.fit_transform(X_train)X_test = sc.transform(X_test)第五步:使用K-NN对训练集数据进行训练从sklearn的neighbors类中导入KNeighborsClassifier学习器
from sklearn.neighbors import KNeighborsClassifier
设置好相关的参数 n_neighbors =5(K值的选择,默认选择5)、 metric ='minkowski'(距离度量的选择,这里选择的是闵氏距离(默认参数))、 p = 2 (距离度量metric的附属参数,只用于闵氏距离和带权重闵氏距离中p值的选择,p=1为曼哈顿距离, p=2为欧式距离。默认为2)classifier = KNeighborsClassifier(n_neighbors=5, metric ='minkowski', p =2)
classifier.fit(X_train,y_train)KNeighborsClassifier(algorithm='auto',leaf_size=30, metric='minkowski',
metric_params=None, n_jobs=1,n_neighbors=5, p=2,weights='uniform')第六步:对测试集进行预测y_pred = classifier.predict(X_test)第七步:生成混淆矩阵混淆矩阵可以对一个分类器性能进行分析,由此可以计算出许多指标,例如:ROC曲线、正确率等fromsklearn.metricsimport confusion_matrixcm = confusion_matrix(y_test, y_pred)print(cm)[[64 4][ 3 29]]print(classification_report(y_test, y_pred))预测集中的0总共有68个,1总共有32个。 在这个混淆矩阵中,实际有68个0,但K-NN预测出有67(64+3)个0,其中有3个实际上是1。 同时K-NN预测出有33(4+29)个1,其中4个实际上是0。数据下载链接:
提取码:vl2g发表评论
最新留言
逛到本站,mark一下
[***.202.152.39]2025年04月10日 08时28分35秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
oracle 11g not in 与not exists 那个高效?
2021-05-09
Linux 安装Redis 5.0(以及参数调优)
2021-05-09
html5 Game开发系列文章之 零[开篇]
2021-05-09
Golang Web入门(4):如何设计API
2021-05-09
ES6基础之——new Set
2021-05-09
玩玩小爬虫——试搭小架构
2021-05-09
Javascript之旅——第八站:说说instanceof踩了一个坑
2021-05-09
Javascript之旅——第九站:吐槽function
2021-05-09
Sql Server之旅——第十站 看看DML操作对索引的影响
2021-05-09
双十一来了,别让你的mongodb宕机了
2021-05-09
深入解析 HTTP 缓存控制
2021-05-09
深入浅出访问者模式
2021-05-09
深入探索Android热修复技术原理读书笔记 —— 热修复技术介绍
2021-05-09
解析js中( ( ) { } ( ) )的含义
2021-05-09
js设计模式总结5
2021-05-09
Python大神编程常用4大工具,你用过几个?
2021-05-09
一文带你了解图神经网络
2021-05-09
9个常用ES6特性归纳(一般用这些就够了)
2021-05-09
3D渲染集群,你了解多少?
2021-05-09