十二学习笔记:第一个scrapy爬虫
发布日期:2022-02-17 04:52:22
浏览次数:18
分类:技术文章
本文共 936 字,大约阅读时间需要 3 分钟。
1.首先创建scrapy项目使用,scrapy startproject + 项目名 2.配置item文件,写入你需要爬取的字段 3.配置设置,可以先提前打开pipeline(后面要用到) 然后就是使用代理: 'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; WOW64)\ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 不然不能进入网站,会被屏蔽 百度代理:'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; WOW64) Ap\ pleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.10 Safari/537.36' 4.就可以cd到spiders文件夹下,使用scrapy genspider myspeider douban.com (这里的douban.com不是URL,是URL的话做callback的时候不能采集下一页) 创建一个新的爬虫(算是核心)负责请求URL,处理想要提取的东西 5.循环后要调用爬虫项目中的item文件,但是有时候不能直接导入模块,这时 我们可以导入一个sys模块进行处理: import sys sys.path.append(r'C:\Users\lg\Desktop\Python\dbSpider') 这里使用yield弄成一个生成器一个一个返回: yield item 6.如果有多个URL需要请求的话,可以在start_url[],里面直接添加,但是那样子太 孬了,要提取大量数据的话要写很多,很难看,也那难写;所以在这里我们可以使 用一个递归函数:yield scrapy.Request(self.url + str(self.offset), callback = self.parse)
7.allowed_domains = ['这里面千万不能URL']第一次用的时候在里面填了一个带'/'的URL
写xxx.com这种(不知道怎么称呼,大概叫域名吧!)
(希望有大神多多指教)转载地址:https://blog.csdn.net/qq_41429288/article/details/80397201 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
逛到本站,mark一下
[***.202.152.39]2024年04月04日 16时30分38秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
xLua(一)——介绍
2021-06-30
xLua(二)——下载
2021-06-30
xLua(三)——在C#中访问Lua代码
2021-06-30
xLua(四)——C#访问Lua的基本类型
2021-06-30
xLua(五)——C#访问Lua的table
2021-06-30
xLua(六)——C#访问Lua的function
2021-06-30
基础知识——常用单位介绍
2021-06-30
xLua(七)——Lua访问C#(一)
2019-04-27
xLua(八)——Lua访问C#(二)
2019-04-27
Unity中实现解析Json文件
2019-04-27
Unity自带Json解析库——JsonUtility
2019-04-27
Unity中使用ViedoPlayer操作视频文件
2019-04-27
C#中的的输入与输出
2019-04-27
C#中@符号的作用
2019-04-27
C#中$符号的作用
2019-04-27
Mac装windows系统后如何更换触控板设置
2019-04-27
Windows系统下如何设置软件的快捷键
2019-04-27
语言中的溢出
2019-04-27
Unity中实现获取一段时间内移动设备声音的最大音量
2019-04-27
springboot的初始化启动过程
2019-04-27