pandas使用汇总
发布日期:2021-05-10 14:40:48 浏览次数:28 分类:精选文章

本文共 1014 字,大约阅读时间需要 3 分钟。

如何从数据集中提取每个file_id对应的label和API序列?

首先,导入必要的库:

import pandas as pd

然后,读取数据集:

df = pd.read_csv('data.csv')

对于label的处理:

# 删除冗余的数据label = df.drop_duplicates(subset=['file_id', 'label'])['label'].values# 或者按file_id分组取第一个labellabel = df.groupby(['file_id'])['label'].apply(lambda x: x.iloc[0]).values

对于API序列的处理:

# 将每个file_id对应的API序列转换成列表api_seq = df.groupby(['file_id'])['api'].apply(','.join).tolist()

处理DataFrame中的每一行:

def process_row(row):    if row.max() >= 0.995:        row[row.argmax()] = 1.0        row[row.argsort().iloc[:-1]] = 0.0    return rowdf = df.apply(process_row, axis=1)

显示完整信息:

# 设置显示更多列pd.set_option('display.max_columns', None)# 设置显示更多行pd.set_option('display.max_rows', None)# 设置value的显示长度pd.set_option('max_colwidth', 100)

其他技术技巧:

# 读取json文件时解决Trailing data问题data = pd.read_json(json_file, lines=True)

处理最大值:

df.groupby(['source_ip'])['domain'].apply(lambda x: x.value_counts().max()).values

使用isin筛选数据:

df.columns[~df.columns.isin(['sum', 'total'])]

这些步骤将帮助您有效地提取和处理数据集中的label和API序列,并对数据集进行必要的操作。

上一篇:免费好用的流程图软件yed
下一篇:Python易错点总结

发表评论

最新留言

很好
[***.229.124.182]2025年04月29日 04时45分36秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

Kubernetes学习总结(2)——Kubernetes设计架构 2023-01-29
Kubernetes学习总结(3)——一年时间打造全球最大规模之一的Kubernetes集群,蚂蚁金服怎么做到的? 2023-01-29
Kubernetes学习总结(4)——Kubernetes v1.20 重磅发布 | 新版本核心主题 & 主要变化解读 2023-01-29
Kubernetes学习总结(5)——Kubernetes 常见面试题汇总 2023-01-29
Kubernetes学习总结(6)——Kubernetes 7周年:它为什么如此受欢迎? 2023-01-29
Kubernetes学习总结(7)——学习 Kubernetes 的 Pod 2023-01-29
Kubernetes学习总结(8)—— Kubernetes Pod 资源管理 和 Pod 服务质量 2023-01-29
Kubernetes学习总结(9)—— 基础架构的未来是 K8s,那么 K8s 的未来在何方? 2023-01-29
kubernetes实战(十三):k8s使用helm持久化部署harbor集成openLDAP登录 2023-01-29
Kubernetes实战(一)-Kubernetes集群搭建 2023-01-29
Kubernetes实战(七)-优先级调度(Pod Priority Preemption) 2023-01-29
Kubernetes实战(三十一)-Calico网络部署(推荐) 2023-01-29
Kubernetes实战(三十三)-外部Etcd集群部署与调优(更安全的数据存储策略) 2023-01-29
Kubernetes实战(三十二)-Kubeadm 安装 Kubernetes v1.24.0 2023-01-29
Kubernetes实战(三)-定向调度(NodeSelector) 2023-01-29
Kubernetes实战(二十九)-集群资源管理(CPU & Memory) 2023-01-29
Kubernetes实战(二十二)-Etcd 集群部署(安全) 2023-01-29
Kubernetes实战(二十五)-Flannel 网络部署(不推荐,不支持 Etcd3) 2023-01-29
Kubernetes实战(二十八)-环境共享与隔离(Namespace) 2023-01-29
Kubernetes实战(二十四)-kubernetes二进制文件方式部署集群(安全)(下) 2023-01-29