三十九、Scrapy-redis框架分布式部署
发布日期:2021-07-01 02:13:11 浏览次数:2 分类:技术文章

本文共 325 字,大约阅读时间需要 1 分钟。

@Author:Runsen

文章目录

scrapy-redis框架

scrapy-redis

一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。

github地址:https://github.com/darkrho/scrapy-redis

分布式原理

scrapy-redis实现分布式,其实从原理上来说很简单,这里为描述方便,我们把自己的核心服务器称为master,而把用于跑爬虫程序的机器称为slave

我们知道,采用scrapy框架抓取网页,我们需要首先给定它一些start_urls,爬虫首先访问start_urls里面的url,再根据我们的具体逻辑,对里面的元素、或者是其他的二级、三级页面

转载地址:https://maoli.blog.csdn.net/article/details/89441612 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:自然语言处理实例
下一篇:kaggle房价预测问题

发表评论

最新留言

留言是一种美德,欢迎回访!
[***.207.175.100]2024年04月15日 10时46分51秒