
Python小爬虫爬取云栖社区
发布日期:2021-05-07 15:03:49
浏览次数:24
分类:技术文章
本文共 1868 字,大约阅读时间需要 6 分钟。
标题Python小爬虫爬取云栖社区
本代码经测试可以正常爬取,现做整体的项目介绍。
爬取目标:https://yq.aliyun.com/,也就是云栖社区中关于Python的帖子标题以及内容。 实现的工具:Python的request库 其中涉及的技术:heads伪装,re正则表达式的使用,URL拼接,URL自动跳转,爬取的信息本地保存。 整个项目跑完大概是三个小时左右。 项目的前期准备:requests库的安装,具体细节自行搜索。import timeimport requestsimport re#导入项目包url='https://yq.aliyun.com/search/articles'#爬取目标key='python'#上面的网址中需要搜索的关键字headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', 'accept-encoding': 'gzip, deflate, sdch, br', 'accept-language': 'zh-CN,zh;q=0.8'}#头信息伪装,可以不使用,因为暂时没有头信息反爬data=requests.get(url,params={ 'q':key},headers=headers).text#读取第一个页面pat1='找到(.*?)条关于'#获取帖子数量的正则alllines=re.compile(pat1,re.S).findall(data)[0]#使用正则提取帖子数量#print(type(alllines),alllines)allpage=int(alllines)//15+1#帖子的页数#print(type(allpage),allpage)for i in range(0,int(allpage)): print('*'*40) index=str(i+1) getdata={ 'q':key,'p':index} #拼接URL data=requests.get(url,params=getdata).text pat2='
发表评论
最新留言
能坚持,总会有不一样的收获!
[***.219.124.196]2025年03月21日 16时14分54秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Java入门笔记(第三章 类与对象之static静态用法)
2019-03-04
Android,SharedPreferences的使用
2019-03-04
(一)Xshell中给Ubuntu20.04服务器安装mysql并修改密码
2019-03-04
Android中使用ViewPager和Fragment实现底部导航栏
2019-03-04
JAVA_方法的使用(方法重载、方法递归)
2019-03-04
VLAN与Trunk的原理及配置
2019-03-04
三层交换技术及配置
2019-03-04
华为hybrid vlan配置
2019-03-04
OSPF路由重分发配置实例
2019-03-04
BGP实验配置实例
2019-03-04
IEEE期刊缩写(常见的电机控制类期刊)
2019-03-04
VS中使用c++函数显示找不到标识符
2019-03-04
排列组合
2019-03-04
Why Software Development Methodologies Suck?
2019-03-04
怎样从0开始搭建一个测试框架_0
2019-03-04
JPEG压缩技术
2019-03-04
Algorithm: K-Means
2019-03-04
Vmware Pro 12 上安装CentOS 7 64位
2019-03-04