favorite scrapy tutorial-白红宇的个人博客

favorite scrapy tutorial

发布日期：2021-05-10 23:27:18 浏览次数：30 分类：精选文章

本文共 1189 字，大约阅读时间需要 3 分钟。

< html>

Declaration

以下代码已测试通过，时间点20200603

create project

scrapy startproject tutorial

创建的项目目录包含以下内容：

import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)

Spider Basics

Name是蜘蛛的标识符，在一个项目中必须是唯一的。

start_requests()方法必须返回一个请求列表或生成器，蜘蛛将从中开始爬行。

parse()方法用于处理每个请求下载的响应，这是Scrapy最核心的概念。

引擎盖启动后的运行过程

Scrapy会根据start_requests()返回的请求创建Scrapy.Request对象，并将每个响应定向parse()方法进行处理。

简化代码示例

import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)

运行蜘蛛

scrapy crawl quotes

如何使用Shell运行Scrapy

Http://quotes.toscrape.com网站由名人名言组成，如何用CSS选择器提取所有内容呢？

Spider's Food Output in JSON Format

scrapy crawl quotes -o quotes.json

JSON Lines格式输出饲料

scrapy crawl quotes -o quotes.jl

上一篇：scrapy-以下链接

下一篇：3-8 解耦内联样式到wxss使用flex(弹性盒子)快速布局

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！