
favorite scrapy tutorial
发布日期:2021-05-10 23:27:18
浏览次数:30
分类:精选文章
本文共 1189 字,大约阅读时间需要 3 分钟。
< html>
Declaration
以下代码已测试通过,时间点20200603
create project
scrapy startproject tutorial
创建的项目目录包含以下内容:
import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]def parse(self, response):page = response.url.split("/")[-2]filename = 'quotes-%s.html' % pagewith open(filename, 'wb') as f:f.write(response.body)self.log('Saved file %s' % filename)
Spider Basics
Name是蜘蛛的标识符,在一个项目中必须是唯一的。
start_requests()方法必须返回一个请求列表或生成器,蜘蛛将从中开始爬行。
parse()方法用于处理每个请求下载的响应,这是Scrapy最核心的概念。
引擎盖启动后的运行过程
Scrapy会根据start_requests()返回的请求创建Scrapy.Request对象,并将每个响应定向parse()方法进行处理。
简化代码示例
import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]def parse(self, response):page = response.url.split("/")[-2]filename = 'quotes-%s.html' % pagewith open(filename, 'wb') as f:f.write(response.body)
运行蜘蛛
scrapy crawl quotes
如何使用Shell运行Scrapy
Http://quotes.toscrape.com网站由名人名言组成,如何用CSS选择器提取所有内容呢?Spider's Food Output in JSON Format
scrapy crawl quotes -o quotes.json
JSON Lines格式输出饲料
scrapy crawl quotes -o quotes.jl
发表评论
最新留言
网站不错 人气很旺了 加油
[***.192.178.218]2025年04月30日 05时28分08秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Mac隐藏辅助功能|自定义苹果Mac显示器
2019-03-14
ActivityNotFoundException异常错误
2019-03-14
socket 乱码解决
2019-03-14
elasticsearch 不能root启动
2019-03-14
git远程仓库切换
2019-03-14
国芯网国产芯片精选月刊V20190801 国产芯片 芯片选型 芯片厂家
2019-03-14
华大芯片调试问题
2019-03-14
DCMTK:存储服务类用户(C-STORE操作)
2019-03-14
带照片捕捉功能的ESP32-CAM PIR运动检测器
2019-03-15
ARM Mbed RFID读取器
2019-03-15
如何使用SSH远程管理Linux服务器
2019-03-15
降级到旧版本macOS的3种方法
2019-03-15
学习Vue.js2.0(国外视频教程)
2019-03-15
在FPGA板上实现数字时钟的VHDL代码
2019-03-15
wxPython和PyOpenGL视频
2019-03-15
在30分钟内学习PHP
2019-03-15
Python http.server 服务器
2019-03-15
Python svm 支持向量机
2019-03-15
OpenStack 最小化安装配置(一):物理机网桥配置
2019-03-15