【Python】爬虫:微博找人页面爬虫(三)
发布日期:2021-06-28 20:47:06
浏览次数:2
分类:技术文章
本文共 2602 字,大约阅读时间需要 8 分钟。
【Python】爬虫:微博找人页面爬虫(三)
在解决完登录问题后,就来开始下载页面来进行解析,之前提到过有两种类型的页面:列表页和文章页,列表页包含文章页的url和下一页列表页的url,也就是只有先下载解析列表页后才可以对文章页进行下载解析。因此就构建了两个不同等级的url队列,通过redis的list来构建,高优先级的存储列表页url,低优先级存储文章页url。
整个存取过程如下: 1,往highlevel中插入起始的列表页url。 2,从highlevel取出url,爬取到当前列表页的下一页url,并存入highlevel,爬取当前列表页中文章页的url,并存入lowlevel中。 3,重复步骤2,直到highlevel中无列表页的url。 4,在步骤3后,就可以从lowlevel中取文章页url,下载页面,解析后存入数据库中。一,构建url队列
1,这里使用redis中的list来构建队列,在使用时通过不同的声明可以创建不同的队列:self.highlevel_db = RedisClent('highlevel', self.website)self.lowlevel_db = RedisClent('lowlevel', self.website)
这里用到的RedisClent在dblink.py文件中,通过传入不同的type来创建不同的队列,通过website来实现不同网站的拓展。
class RedisClent(object): def __init__(self, type, website, host=REDIS_HOST, port=REDIS_POST, password=REDIS_PASSWORD): """ 初始化Redis连接 :param type: Hash存储类型,account or Cookies :param website: 网站 :param host:地址 :param port:端口号 :param password:密码 """ self.db = redis.StrictRedis(host=host,port=port,password=password,decode_responses=True) self.type = type self.website = website
2,这里构建的队列属于FIFO,先进先出,用到了list自带的一些方法
def Listname(self): """ 获取url队列名称 :return: """ return "{type}:{website}".format(type=self.type,website=self.website) def allurl(self,start=0,end=-1): """ 获取指定list中的所有url :return: """ return self.db.lrange(self.Listname(),start,end) def addUrl(self,url): """ 添加url进队列 :param url: url :return: """ # listname = self.Listname().get(urllevel) self.db.lrem(self.Listname(),0,url) #移除相同的url self.db.lpush(self.Listname(),url) def popurl(self): """ 获取url :param urllevel: :return: """ # listname = self.Listname().get(urllevel) print(self.Listname(),':',self.db.llen(self.Listname())) return self.db.rpop(self.Listname())
在添加url之前需要,考虑重复url的问题,这里偷懒,直接先将队列中相同的url删除,然后在添加进入队列中。
二,url队列操作
在取url时候,优先取出高优先级队列中的,取完之后,再取出低优先级队列中的url,这里构建了一个url仓库。class UrlRepository(object): def __init__(self,website): self.website = website self.highlevel_db = RedisClent('highlevel', self.website) self.lowlevel_db = RedisClent('lowlevel', self.website)#取队列的url def urlPop(self): url = self.highlevel_db.popurl() if not url: url = self.lowlevel_db.popurl() return url#将url加人队列 def addHigh(self,url): self.highlevel_db.addUrl(url)#将url加人队列 def addlow(self,url): self.lowlevel_db.addUrl(url)
代码已经上传至GitHub,仅供参考
https://github.com/yangjunjians/Crawlers转载地址:https://blog.csdn.net/yangjjuan/article/details/99817572 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
路过,博主的博客真漂亮。。
[***.116.15.85]2024年04月10日 09时49分30秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
攻防世界 0ctf-unserialize(piapipia)
2019-04-29
攻防世界1-4
2019-04-29
攻防世界 4-8
2019-04-29
攻防世界 9-12
2019-04-29
BUUCTF The mystery of ip
2019-04-29
BUUCTF [De1CTF 2019]SSRF Me
2019-04-29
BUUCTF [极客大挑战 2019]FinalSQL
2019-04-29
[BJDCTF 2nd]简单注入
2019-04-29
buuctf [pasecactf_2019]flask_ssti
2019-04-29
Buuctf [第三章 web进阶]SSTI 20
2019-04-29
Buuctf [GKCTF2020]CheckIN
2019-04-29
CTFSHOW WEB入门 命令执行做题笔记(持续更新)
2019-04-29
应急响应流程
2019-04-29
Vulhub Flask SSTI漏洞复现
2019-04-29
CTFSHOW 文件包含
2019-04-29
Apache HTTPD 换行解析漏洞
2019-04-29
Vulhub Apache HTTPD 多后缀解析漏洞
2019-04-29
CTFshow 反序列化
2019-04-29
CTFSHOW SSRF
2019-04-29
[BJDCTF2020]Mark loves cat
2019-04-29