pandas使用汇总-白红宇的个人博客

pandas使用汇总

发布日期：2021-05-10 14:40:48 浏览次数：28 分类：精选文章

本文共 1014 字，大约阅读时间需要 3 分钟。

如何从数据集中提取每个file_id对应的label和API序列？

首先，导入必要的库：

import pandas as pd

然后，读取数据集：

df = pd.read_csv('data.csv')

对于label的处理：

# 删除冗余的数据label = df.drop_duplicates(subset=['file_id', 'label'])['label'].values# 或者按file_id分组取第一个labellabel = df.groupby(['file_id'])['label'].apply(lambda x: x.iloc[0]).values

对于API序列的处理：

# 将每个file_id对应的API序列转换成列表api_seq = df.groupby(['file_id'])['api'].apply(','.join).tolist()

处理DataFrame中的每一行：

def process_row(row):    if row.max() >= 0.995:        row[row.argmax()] = 1.0        row[row.argsort().iloc[:-1]] = 0.0    return rowdf = df.apply(process_row, axis=1)

显示完整信息：

# 设置显示更多列pd.set_option('display.max_columns', None)# 设置显示更多行pd.set_option('display.max_rows', None)# 设置value的显示长度pd.set_option('max_colwidth', 100)

其他技术技巧：

# 读取json文件时解决Trailing data问题data = pd.read_json(json_file, lines=True)

处理最大值：

df.groupby(['source_ip'])['domain'].apply(lambda x: x.value_counts().max()).values

使用isin筛选数据：

df.columns[~df.columns.isin(['sum', 'total'])]

这些步骤将帮助您有效地提取和处理数据集中的label和API序列，并对数据集进行必要的操作。

上一篇：免费好用的流程图软件yed

下一篇：Python易错点总结

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

Kubernetes学习总结（2）——Kubernetes设计架构 2023-01-29

Kubernetes学习总结（3）——一年时间打造全球最大规模之一的Kubernetes集群，蚂蚁金服怎么做到的？ 2023-01-29

Kubernetes学习总结（4）——Kubernetes v1.20 重磅发布 | 新版本核心主题 & 主要变化解读 2023-01-29

Kubernetes学习总结（5）——Kubernetes 常见面试题汇总 2023-01-29

Kubernetes学习总结（6）——Kubernetes 7周年：它为什么如此受欢迎？ 2023-01-29

Kubernetes学习总结（7）——学习 Kubernetes 的 Pod 2023-01-29

Kubernetes学习总结（8）—— Kubernetes Pod 资源管理和 Pod 服务质量 2023-01-29

Kubernetes学习总结（9）—— 基础架构的未来是 K8s，那么 K8s 的未来在何方？ 2023-01-29

kubernetes实战(十三)：k8s使用helm持久化部署harbor集成openLDAP登录 2023-01-29

Kubernetes实战（一）-Kubernetes集群搭建 2023-01-29

Kubernetes实战（七）-优先级调度（Pod Priority Preemption） 2023-01-29

Kubernetes实战（三十一）-Calico网络部署（推荐） 2023-01-29

Kubernetes实战（三十三）-外部Etcd集群部署与调优（更安全的数据存储策略） 2023-01-29

Kubernetes实战（三十二）-Kubeadm 安装 Kubernetes v1.24.0 2023-01-29

Kubernetes实战（三）-定向调度（NodeSelector） 2023-01-29

Kubernetes实战（二十九）-集群资源管理（CPU & Memory） 2023-01-29

Kubernetes实战（二十二）-Etcd 集群部署（安全） 2023-01-29

Kubernetes实战（二十五）-Flannel 网络部署（不推荐，不支持 Etcd3） 2023-01-29

Kubernetes实战（二十八）-环境共享与隔离（Namespace） 2023-01-29

Kubernetes实战（二十四）-kubernetes二进制文件方式部署集群（安全）（下） 2023-01-29

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 465743432 位访客

发表评论

最新留言

关于作者

推荐文章