用python将一个数据文件分为训练集和测试集-白红宇的个人博客

发布日期：2021-05-13 19:12:24 浏览次数：15 分类：精选文章

本文共 942 字，大约阅读时间需要 3 分钟。

鸢尾花数据集（Iris Dataset）是一套常用的机器学习数据集，用于评估分类算法。以下将介绍如何以7:3的比例随机划分鸢尾花数据集为训练集和测试集的步骤。

代码及说明

文件与程序文件应放在同一目录下。

# 导入相应的库
import numpy as np
from sklearn.model_selection import train_test_split
# 读取CSV文件并转换为矩阵形式
data = np.loadtxt(open("iris.csv"), delimiter=",", skiprows=0)
# 如果标签为String，需先将其转换为浮点型
def iris_type(s):
    class_label = {b"Iris-setosa": 0, b"Iris-versicolor": 1, b"Iris-virginica": 2}
    return class_label[s]
# 使用numpy读取数据文件（CSV格式）
filepath = "iris_data.csv"  # 数据文件路径
data = np.loadtxt(filepath, dtype=float, delimiter=',', converters={4: iris_type})
# 将数据分为输入数据X和标签y
X, y = data[:,-1], data[:,-1]
# 利用train_test_split方法按7:3随机划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 将训练集和测试集分别保存为CSV文件
train = np.column_stack((X_train, y_train))
np.savetxt('train_set.csv', train, delimiter=',')
test = np.column_stack((X_test, y_test))
np.savetxt('test_set.csv', test, delimiter=',')

参考

上一篇：C++使用笔记

下一篇：随机森林

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

代码及说明

参考

发表评论

最新留言

关于作者

推荐文章