Robots协议
发布日期:2021-06-29 15:39:12 浏览次数:3 分类:技术文章

本文共 156 字,大约阅读时间需要 1 分钟。

Robots Exclusion Standard   网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件  

如:

网络爬虫:自动或人工识别robots.txt,再进行内容爬取

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

转载地址:https://codingchaozhang.blog.csdn.net/article/details/76474598 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Python网络爬虫的网站实例
下一篇:Requests库的入门

发表评论

最新留言

留言是一种美德,欢迎回访!
[***.207.175.100]2024年04月15日 07时54分36秒