python爬虫--07 Scrapy爬虫数据类型
发布日期:2021-05-14 12:18:59 浏览次数:11 分类:精选文章

本文共 3893 字,大约阅读时间需要 12 分钟。

Scrapy���������������������������������������������������������������������������������������������Scrapy������������������������������������������������������������������������������

1. Scrapy���������������������������

���������Scrapy���������������������������������������������������

������1������������������������Spider������ Scrapy������������������������������������������������������������������scrapyproj������������������������������������������������������������������������������������

scrapy startproject demo

������2���������Spider������������������ ������������������������������������������������������������������������

scrapy genspider demo_spider

������������������������������������������������������������demo_spider.py������������������������������

������3���������Item Pipeline Item Pipeline���������������������������������������������������������������������������������Item Pipeline���������

  • CSV������
  • JSON������
  • ���������������������MySQL���MongoDB������

������4��������������������� Scrapy���������������������������������������������scrapy.cfg������������������settings.py���������������������������������������������������

  • ���������������������������������������CONCURRENT_REQUESTS���
  • ���������������������DOWNLOAD_DELAY���
  • ���������������User-Agent���DEFAULT_REQUEST_HEADERS���

2. Scrapy���������������������

���Scrapy������������������������������������������������������

2.1 Request��� Request���������������HTTP���������������Spider������������Downloader���������������������������������������������������������������

  • .url: Request���������URL������
  • .method: ������������������GET���POST
  • .headers: ������������������������
  • .body: ������������
  • .meta: ������������������������

2.2 Response��� Response������������������HTTP������������Downloader������������Spider���������������������������������������

  • .url: ���������URL������
  • .status: HTTP������������������������200
  • .headers: ������������������
  • .body: ������������
  • .request: ������������Request������

2.3 Item��� Item������������������������������������������������������������������������������������������������������������������������������

item = {
'name': '������',
'age': 30,
'hobbies': ['������', '������']
}

3. Scrapy���������������������������

Scrapy������������HTML���������������������

  • BeautifulSoup
  • lxml
  • re���������������������
  • XPath Selector���������XML���������������������������
  • CSS Selector���������CSS������������

���������������CSS Selector������������

response.css('a::attr(href)').extract()

4. ������������

���������������������������������������scrapy crawl demo���������������������������������������������������������

���������������������

File "e:\program files (x86)\python\lib\site-packages\scrapy\extensions\telnet.py", line 12, in 
from twisted.conch import manhole, telnet
File "e:\program files (x86)\python\lib\site-packages\twisted\conch\manhole.py", line 241
def addOutput(self, data, async=False):
^SyntaxError: invalid syntax

��������������� ������������������������Twisted���������������������������������������������manhole.py���������������������������������������������Python������������������������������������������

���������������

  • ������Python���������3.7������������������������Scrapy���Python3.7������������������
  • ������Twisted������������������������������������������������
    pip install -i https://pypi.org/simple twisted
  • ������Scrapy������������������������
    scrapy upgrade
  • ���������������������Python���������������������������

    python -m pip install --upgrade

    ��������� Scrapy������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Python������������������������������������������������������������������������������������������������������

    上一篇:python爬虫--06 Scrapy爬虫框架
    下一篇:python爬虫--05 正则表达式

    发表评论

    最新留言

    做的很好,不错不错
    [***.243.131.199]2025年04月22日 05时20分09秒

    关于作者

        喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
    -- 愿君每日到此一游!

    推荐文章

    hadoop 分布式文件系统的计算和高可用 2021-05-12
    2021-05-08 2021-05-12
    【Linux】VMware Workstation 不可恢复错误: (vcpu-0) 2021-05-12
    VS中 fatal error LNK1123: 转换到 COFF 期间失败 的解决方法 2021-05-12
    关于Img标签在固定宽高的容器内部以图片比例缩放存在 2021-05-12
    python3---读写文件、POST表单请求、HTML处理、列表分割遍历,进行暴力破解用户名与密码 2021-05-12
    Android Studio基础项目-布局XML设置的实战-全屏显示登录界面,去除按钮深颜色 2021-05-12
    pyhton---异常处理的终极语法、网页访问基本读取、网页访问异常处理 2021-05-12
    Centos 7.3 计算本目录下的以特定名字文件夹个数 2021-05-12
    linux下编程出现 对'sem_wait'未定义的引用解决方案 2021-05-12
    工具研究:(三)Nginx配置错误的路由时均统一跳转到登录界面 2021-05-12
    前端框架(react+umi+dva+ant design pro )攻克: 二、react 父子组件通信(二) 2021-05-12
    ant design pro v5去掉右边content区域的水印 2021-05-12
    web_求和(练习) 2021-05-12
    JavaScript——使用iterator遍历迭代map,set集合元素 2021-05-12
    IAR调试卡顿的解决办法 2021-05-13
    应用程序无法启动,应用程序的并行配置不正确完美解决方法 2021-05-13
    【IntelliJ IDEA 2019.2】idea如何开启自动编译 2021-05-13
    强大的文字处理器——Nisus Writer Pro 2021-05-13
    如何轻松适应从Windows到MacOS的过渡!Mac新手入门指南 2021-05-13