使用scrapy-redis构建分布式爬虫-白红宇的个人博客

使用scrapy-redis构建分布式爬虫

发布日期：2021-05-13 00:13:35 浏览次数：13 分类：精选文章

本文共 1565 字，大约阅读时间需要 5 分钟。

��Scrapy-Redis��

��Scrapy-Redis��RedisSpider

��RedisSpider

��start_url��Redis�� redis_key="myspider:start_urls"

��Scrapy settings��

#��Scrapy-Redis�� DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#��Scrapy-Redis�� SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#��Scrapy-Redis�� SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

#�� SCHEDULER_PERSIST = True

ITEM_PIPELINES = { 'ProjectName.pipelines.ProductPipeline': 300, 'scrapy_redis.pipelines.RedisPipeline': 400, }

#��Redis�� REDIS_HOST = '��IP��' REDIS_PORT = 6379

��Redis��

��Redis

��Redis��

��Redis��

��

scrapy runspider spidername.py

��Redis��

��URL��` Observable myspider:*

��` DEL myspider:*

������������������������Redis���������
- ������Redis��������������������������� /etc/redis/redis.conf���������bind���������������0.0.0.0������������������������
- ������protected-mode���������no������������������������
- ������port���������6379������Scrapy���������������
- ���������������������������Redis���������������
���������������������������������������������Scrapy-Redis���������������������������������������������������������������������������������������������������

上一篇：Windows环境下自动化爬虫搭建及数据清洗（Kettle）

下一篇：Thrift

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章