用python将一个数据文件分为训练集和测试集
发布日期:2021-05-13 19:12:24 浏览次数:15 分类:精选文章

本文共 942 字,大约阅读时间需要 3 分钟。

鸢尾花数据集(Iris Dataset)是一套常用的机器学习数据集,用于评估分类算法。以下将介绍如何以7:3的比例随机划分鸢尾花数据集为训练集和测试集的步骤。

代码及说明

文件与程序文件应放在同一目录下。

# 导入相应的库
import numpy as np
from sklearn.model_selection import train_test_split
# 读取CSV文件并转换为矩阵形式
data = np.loadtxt(open("iris.csv"), delimiter=",", skiprows=0)
# 如果标签为String,需先将其转换为浮点型
def iris_type(s):
class_label = {b"Iris-setosa": 0, b"Iris-versicolor": 1, b"Iris-virginica": 2}
return class_label[s]
# 使用numpy读取数据文件(CSV格式)
filepath = "iris_data.csv" # 数据文件路径
data = np.loadtxt(filepath, dtype=float, delimiter=',', converters={4: iris_type})
# 将数据分为输入数据X和标签y
X, y = data[:,-1], data[:,-1]
# 利用train_test_split方法按7:3随机划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 将训练集和测试集分别保存为CSV文件
train = np.column_stack((X_train, y_train))
np.savetxt('train_set.csv', train, delimiter=',')
test = np.column_stack((X_test, y_test))
np.savetxt('test_set.csv', test, delimiter=',')

参考

  • 上一篇:C++使用笔记
    下一篇:随机森林

    发表评论

    最新留言

    关注你微信了!
    [***.104.42.241]2025年05月04日 09时58分04秒

    关于作者

        喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
    -- 愿君每日到此一游!

    推荐文章

    论文报告/前沿文章 2019-03-11
    Less 2019-03-11
    JS模块化规范 2019-03-11
    函数与高级变量 2019-03-11
    机器学习:sklearn实现黑色星期五 2019-03-11
    键盘事件 2019-03-11
    超分辨率/去噪 2019-03-11
    弱监督 2019-03-11
    二 召回算法 2019-03-11
    2020-11月计划实施表 2019-03-11
    个人常用网络 2019-03-11
    图神经网络 2019-03-11
    数据分析 2019-03-11
    objects 2019-03-11
    折线图 2019-03-11
    常识: 2019-03-11
    注册页面案例 2019-03-11
    关系抽取 2019-03-11
    np.bincount(x)的简单解释 2019-03-11
    OpenCV图像通道的合并与分离 2019-03-11