Python 爬虫-Robots协议
发布日期:2022-04-02 18:15:33
浏览次数:9
分类:博客文章
本文共 616 字,大约阅读时间需要 2 分钟。
2017-07-25 21:08:16
一、网络爬虫的规模
二、网络爬虫的限制
• 来源审查:判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问• 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守三、Robots 协议
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件如果网站不提供Robots协议则表示该网站允许任意爬虫爬取任意次数。
类人类行为原则上可以不遵守Robots协议
https://www.baidu.com/robots.txthttp://news.sina.com.cn/robots.txt
举例:
https://www.jd.com/robots.txtUser‐agent: *Disallow: /?*Disallow: /pop/*.htmlDisallow: /pinpai/*.html?*User‐agent: EtaoSpiderDisallow: /User‐agent: HuihuiSpiderDisallow: /User‐agent: GwdangSpiderDisallow: /User‐agent: WochachaSpiderDisallow: /# 注释,*代表所有,/代表根目录User‐agent: *Disallow: /
转载地址:https://www.cnblogs.com/hyserendipity/p/7236670.html 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
感谢大佬
[***.8.128.20]2024年03月17日 18时49分42秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
android studio 50
2019-04-21
androdi Studio 51 mp3
2019-04-21
android studio 52 mp3下载客户端001
2019-04-21
android studio 53 mp3
2019-04-21
Android studio 53 文件下载
2019-04-21
android studio 54 下载进度条
2019-04-21
android studio 70 歌曲服务器搭建 歌曲app 完整代码(发布版)
2019-04-21
Android单击事件处理与监听003
2019-04-21
vb 读取mysql所有表名_vb怎么列举出一个mdb数据库里面所有表名?
2019-04-21
mysql行级锁升级_mysql innodb 行级锁升级
2019-04-21
mysql怎么分组查询所有数据库_Mysql-4 分组查询与子查询
2019-04-21
mysql 多列union_Mysql联合查询UNION和UNION ALL的使用介绍
2019-04-21
mysql导数据出指定数量_mysql导出指定数据或部份数据的方法
2019-04-21
java thread 多线程_java用Thread方式创建多线程
2019-04-21
微信红包接口 java_【java微信开发】红包接口调用
2019-04-21
java多个类调用_JAVA问题总结之15-多个类之间的调用
2019-04-21
java语言50到100之间素数和_用JAVA语言编写一程序,求100以内的所有素数
2019-04-21