favorite scrapy tutorial
发布日期:2021-05-10 23:27:18 浏览次数:30 分类:精选文章

本文共 1189 字,大约阅读时间需要 3 分钟。

< html>


Declaration

以下代码已测试通过,时间点20200603

create project

scrapy startproject tutorial

创建的项目目录包含以下内容:

import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)

Spider Basics

Name是蜘蛛的标识符,在一个项目中必须是唯一的。

start_requests()方法必须返回一个请求列表或生成器,蜘蛛将从中开始爬行。

parse()方法用于处理每个请求下载的响应,这是Scrapy最核心的概念。

引擎盖启动后的运行过程

Scrapy会根据start_requests()返回的请求创建Scrapy.Request对象,并将每个响应定向parse()方法进行处理。

简化代码示例

import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)

运行蜘蛛

scrapy crawl quotes

如何使用Shell运行Scrapy

Http://quotes.toscrape.com网站由名人名言组成,如何用CSS选择器提取所有内容呢?

Spider's Food Output in JSON Format

scrapy crawl quotes -o quotes.json

JSON Lines格式输出饲料

scrapy crawl quotes -o quotes.jl

上一篇:scrapy-以下链接
下一篇:3-8 解耦内联样式到wxss使用flex(弹性盒子)快速布局

发表评论

最新留言

网站不错 人气很旺了 加油
[***.192.178.218]2025年04月30日 05时28分08秒