python去重
发布日期:2021-06-28 19:08:37
浏览次数:4
分类:技术文章
本文共 1381 字,大约阅读时间需要 4 分钟。
由于在python 爬虫过程中有爬取到重复的链接,并没有进行去重操作,故,这里再通过python自带的set再次进行去重一次。
下面是给出来的代码
# -*- coding: utf-8 -*-# @Time : 2018/9/21 13:31# @Author : 蛇崽# @Email : 643435675@QQ.com# @Site : http://www.ltc622.com/# @File : get_only_teaminfo.py# @Software: PyCharm 队员信息去重import jsondef read_json(): f = open('team_all2.json', encoding='utf-8') link_datas = [] f2 = open('all_teaminfos.jason', 'a', encoding='utf-8') while 1: line = f.readline() if not line: break jline = json.loads(line) teamName = jline['teamName'] teamLink = jline['teamLink'] teamId = jline['teamId'] print('link ====== >>>> ', teamLink) data = { 'teamName':teamName, 'teamLink':teamLink, 'teamId':str(teamId), } data = json.dumps(data, ensure_ascii=False) link_datas.append(data) link_datas_final = set(link_datas) for data in link_datas_final: print(data) f2.write(data+'\n') f2.close()if __name__ == '__main__': read_json()
说下主要思路:主要是把一个list放进到set里面,然后取出来,便是已经去重过的数据了。
--------------------------------------- 下面是广告 ------------------------------------------------
个人微信:hll643435675(备注:博客)
更多资源请访问:
欢迎光临我的小网站:
欢迎光临这个妹子的SEO优化网站:
陆续优化中,后续会开发更多更好玩的有趣的小工具
--------------------------------------- 上面是广告 ------------------------------------------------
转载地址:https://blog.csdn.net/xudailong_blog/article/details/82891287 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
哈哈,博客排版真的漂亮呢~
[***.90.31.176]2024年04月14日 21时14分21秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
MongoDB数据库安装完成之后的配置
2019-04-29
Mongo数据库使用
2019-04-29
弹性布局做导航
2019-04-29
使用setTimeout()实现setInterval()功能
2019-04-29
jQuery鼠标经过显示二级导航菜单(用less写的)
2019-04-29
canvas刮涂层抽奖
2019-04-29
axios接收后台图片二进制流显示到前端
2019-04-29
iView3.0样式显示问题(Select和DatePicker)
2019-04-29
Gulp常用的一些插件
2019-04-29
Docker:基础知识
2019-04-29
mysql知识总结
2019-04-29
C#连接ACCESS
2019-04-29
linux安装VMtools
2019-04-29
移动硬盘插入win10检测到却不显示盘符解决方法
2019-04-29
怎么查看本机S/N序列号和BIOS版本
2019-04-29
ThinkPad X1 Carbon安装win7.
2019-04-29
使用diskgenius将GPT转MBR问题
2019-04-29
Windows账号类型区别
2019-04-29
论文管理工具梳理
2019-04-29
机场净空区
2019-04-29