Python 爬虫-Robots协议
发布日期:2022-04-02 18:15:33 浏览次数:9 分类:博客文章

本文共 616 字,大约阅读时间需要 2 分钟。

2017-07-25 21:08:16

一、网络爬虫的规模

二、网络爬虫的限制

• 来源审查:判断User‐Agent进行限制

  检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
• 发布公告:Robots协议
  告知所有爬虫网站的爬取策略,要求爬虫遵守

三、Robots 协议

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件

如果网站不提供Robots协议则表示该网站允许任意爬虫爬取任意次数。

类人类行为原则上可以不遵守Robots协议

https://www.baidu.com/robots.txthttp://news.sina.com.cn/robots.txt

 

举例:

https://www.jd.com/robots.txtUser‐agent: *Disallow: /?*Disallow: /pop/*.htmlDisallow: /pinpai/*.html?*User‐agent: EtaoSpiderDisallow: /User‐agent: HuihuiSpiderDisallow: /User‐agent: GwdangSpiderDisallow: /User‐agent: WochachaSpiderDisallow: /# 注释,*代表所有,/代表根目录User‐agent: *Disallow: /

 

转载地址:https://www.cnblogs.com/hyserendipity/p/7236670.html 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Python 爬虫-Requests库入门
下一篇:Python 正则表达式

发表评论

最新留言

感谢大佬
[***.8.128.20]2024年03月17日 18时49分42秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章