
用python将一个数据文件分为训练集和测试集
发布日期:2021-05-13 19:12:24
浏览次数:15
分类:精选文章
本文共 942 字,大约阅读时间需要 3 分钟。
鸢尾花数据集(Iris Dataset)是一套常用的机器学习数据集,用于评估分类算法。以下将介绍如何以7:3的比例随机划分鸢尾花数据集为训练集和测试集的步骤。
代码及说明
文件与程序文件应放在同一目录下。
# 导入相应的库import numpy as npfrom sklearn.model_selection import train_test_split# 读取CSV文件并转换为矩阵形式data = np.loadtxt(open("iris.csv"), delimiter=",", skiprows=0)# 如果标签为String,需先将其转换为浮点型def iris_type(s): class_label = {b"Iris-setosa": 0, b"Iris-versicolor": 1, b"Iris-virginica": 2} return class_label[s]# 使用numpy读取数据文件(CSV格式)filepath = "iris_data.csv" # 数据文件路径data = np.loadtxt(filepath, dtype=float, delimiter=',', converters={4: iris_type})# 将数据分为输入数据X和标签yX, y = data[:,-1], data[:,-1]# 利用train_test_split方法按7:3随机划分为训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 将训练集和测试集分别保存为CSV文件train = np.column_stack((X_train, y_train))np.savetxt('train_set.csv', train, delimiter=',')test = np.column_stack((X_test, y_test))np.savetxt('test_set.csv', test, delimiter=',')
参考
发表评论
最新留言
关注你微信了!
[***.104.42.241]2025年05月04日 09时58分04秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
论文报告/前沿文章
2019-03-11
Less
2019-03-11
JS模块化规范
2019-03-11
函数与高级变量
2019-03-11
机器学习:sklearn实现黑色星期五
2019-03-11
键盘事件
2019-03-11
超分辨率/去噪
2019-03-11
弱监督
2019-03-11
二 召回算法
2019-03-11
2020-11月计划实施表
2019-03-11
个人常用网络
2019-03-11
图神经网络
2019-03-11
数据分析
2019-03-11
objects
2019-03-11
折线图
2019-03-11
常识:
2019-03-11
注册页面案例
2019-03-11
关系抽取
2019-03-11
np.bincount(x)的简单解释
2019-03-11
OpenCV图像通道的合并与分离
2019-03-11