十二学习笔记：第一个scrapy爬虫-白红宇的个人博客

十二学习笔记：第一个scrapy爬虫

发布日期：2022-02-17 04:52:22 浏览次数：18 分类：技术文章

本文共 936 字，大约阅读时间需要 3 分钟。

1.首先创建scrapy项目使用，scrapy startproject + 项目名

2.配置item文件，写入你需要爬取的字段

3.配置设置，可以先提前打开pipeline（后面要用到）

然后就是使用代理：

'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; WOW64)\

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

不然不能进入网站，会被屏蔽

百度代理：'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; WOW64) Ap\

pleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.10 Safari/537.36'

4.就可以cd到spiders文件夹下，使用scrapy genspider myspeider douban.com

（这里的douban.com不是URL，是URL的话做callback的时候不能采集下一页）

创建一个新的爬虫（算是核心）负责请求URL，处理想要提取的东西

5.循环后要调用爬虫项目中的item文件，但是有时候不能直接导入模块，这时

我们可以导入一个sys模块进行处理：

import sys

sys.path.append(r'C:\Users\lg\Desktop\Python\dbSpider')

这里使用yield弄成一个生成器一个一个返回：

yield item

6.如果有多个URL需要请求的话，可以在start_url[],里面直接添加，但是那样子太

孬了，要提取大量数据的话要写很多，很难看，也那难写；所以在这里我们可以使

用一个递归函数：

yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

7.allowed_domains = ['这里面千万不能URL']第一次用的时候在里面填了一个带'/'的URL

写xxx.com这种（不知道怎么称呼，大概叫域名吧！）

（希望有大神多多指教）

转载地址：https://blog.csdn.net/qq_41429288/article/details/80397201 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！