Python小爬虫爬取云栖社区
发布日期:2021-05-07 15:03:49 浏览次数:24 分类:技术文章

本文共 1868 字,大约阅读时间需要 6 分钟。

标题Python小爬虫爬取云栖社区

本代码经测试可以正常爬取,现做整体的项目介绍。

爬取目标:https://yq.aliyun.com/,也就是云栖社区中关于Python的帖子标题以及内容。
实现的工具:Python的request库
其中涉及的技术:heads伪装,re正则表达式的使用,URL拼接,URL自动跳转,爬取的信息本地保存。
整个项目跑完大概是三个小时左右。
项目的前期准备:requests库的安装,具体细节自行搜索。

import timeimport requestsimport re#导入项目包url='https://yq.aliyun.com/search/articles'#爬取目标key='python'#上面的网址中需要搜索的关键字headers = {       'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',    'accept-encoding': 'gzip, deflate, sdch, br',    'accept-language': 'zh-CN,zh;q=0.8'}#头信息伪装,可以不使用,因为暂时没有头信息反爬data=requests.get(url,params={   'q':key},headers=headers).text#读取第一个页面pat1='
上一篇:Python爬虫的headers问题
下一篇:大佬龟叔写的一个无聊程序

发表评论

最新留言

能坚持,总会有不一样的收获!
[***.219.124.196]2025年03月21日 16时14分54秒