
pandas使用汇总
发布日期:2021-05-10 14:40:48
浏览次数:28
分类:精选文章
本文共 1014 字,大约阅读时间需要 3 分钟。
如何从数据集中提取每个file_id对应的label和API序列?
首先,导入必要的库:
import pandas as pd
然后,读取数据集:
df = pd.read_csv('data.csv')
对于label的处理:
# 删除冗余的数据label = df.drop_duplicates(subset=['file_id', 'label'])['label'].values# 或者按file_id分组取第一个labellabel = df.groupby(['file_id'])['label'].apply(lambda x: x.iloc[0]).values
对于API序列的处理:
# 将每个file_id对应的API序列转换成列表api_seq = df.groupby(['file_id'])['api'].apply(','.join).tolist()
处理DataFrame中的每一行:
def process_row(row): if row.max() >= 0.995: row[row.argmax()] = 1.0 row[row.argsort().iloc[:-1]] = 0.0 return rowdf = df.apply(process_row, axis=1)
显示完整信息:
# 设置显示更多列pd.set_option('display.max_columns', None)# 设置显示更多行pd.set_option('display.max_rows', None)# 设置value的显示长度pd.set_option('max_colwidth', 100)
其他技术技巧:
# 读取json文件时解决Trailing data问题data = pd.read_json(json_file, lines=True)
处理最大值:
df.groupby(['source_ip'])['domain'].apply(lambda x: x.value_counts().max()).values
使用isin筛选数据:
df.columns[~df.columns.isin(['sum', 'total'])]
这些步骤将帮助您有效地提取和处理数据集中的label和API序列,并对数据集进行必要的操作。
发表评论
最新留言
很好
[***.229.124.182]2025年04月29日 04时45分36秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Kubernetes学习总结(2)——Kubernetes设计架构
2023-01-29
Kubernetes学习总结(5)——Kubernetes 常见面试题汇总
2023-01-29
Kubernetes学习总结(6)——Kubernetes 7周年:它为什么如此受欢迎?
2023-01-29
Kubernetes学习总结(7)——学习 Kubernetes 的 Pod
2023-01-29
Kubernetes实战(一)-Kubernetes集群搭建
2023-01-29
Kubernetes实战(三十一)-Calico网络部署(推荐)
2023-01-29
Kubernetes实战(三十三)-外部Etcd集群部署与调优(更安全的数据存储策略)
2023-01-29
Kubernetes实战(三)-定向调度(NodeSelector)
2023-01-29
Kubernetes实战(二十九)-集群资源管理(CPU & Memory)
2023-01-29
Kubernetes实战(二十二)-Etcd 集群部署(安全)
2023-01-29
Kubernetes实战(二十八)-环境共享与隔离(Namespace)
2023-01-29