使用scrapy-redis构建分布式爬虫
发布日期:2021-05-13 00:13:35 浏览次数:13 分类:精选文章

本文共 1565 字,大约阅读时间需要 5 分钟。

������������Scrapy-Redis���������������

  • ������Scrapy-Redis���������RedisSpider

  • ���������������������RedisSpider

  • ������start_url���������Redis��������� redis_key="myspider:start_urls"

  • ������Scrapy settings���

    #������Scrapy-Redis������������ DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

    #������Scrapy-Redis������������ SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    #���������Scrapy-Redis������������������������������������ SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

    #������������������������������ SCHEDULER_PERSIST = True

    ITEM_PIPELINES = { 'ProjectName.pipelines.ProductPipeline': 300, 'scrapy_redis.pipelines.RedisPipeline': 400, }

    #������Redis��������������������������������������������� REDIS_HOST = '���������IP������' REDIS_PORT = 6379

  • ������������Redis������������

    • ������Redis
    • ������Redis������
    • ���������������������Redis������������
  • ���������������������

    scrapy runspider spidername.py

    ������������Redis������������������

  • ������Redis���������������������

    • ������������������URL���` Observable myspider:*
    • ���������������������` DEL myspider:*
  • ������������������������Redis���������
    - ������Redis��������������������������� /etc/redis/redis.conf���������bind���������������0.0.0.0������������������������
    - ������protected-mode���������no������������������������
    - ������port���������6379������Scrapy���������������
    - ���������������������������Redis���������������
    ���������������������������������������������Scrapy-Redis���������������������������������������������������������������������������������������������������
    上一篇:Windows环境下自动化爬虫搭建及数据清洗(Kettle)
    下一篇:Thrift

    发表评论

    最新留言

    不错!
    [***.144.177.141]2025年04月15日 20时38分57秒