Robots协议-白红宇的个人博客

Robots协议

发布日期：2021-06-29 15:39:12 浏览次数：3 分类：技术文章

本文共 156 字，大约阅读时间需要 1 分钟。

Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的robots.txt文件

如：

网络爬虫：自动或人工识别robots.txt,再进行内容爬取

约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

转载地址：https://codingchaozhang.blog.csdn.net/article/details/76474598 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Python网络爬虫的网站实例

下一篇：Requests库的入门

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

网络攻击与防御--引言 2019-04-29

网络攻击与防御--网络协议漏洞 2019-04-29

sql注入: 判断注入点类型 2019-04-29

千人千面Elasticsearch实战学习笔记 2019-04-29

最大子数组问题（递归）（java） 2019-04-29

2020年哨兵数据批量下载（USGS） 2019-04-29

mysql数据库操作基础 2019-04-29

Mariadb基础管理 2019-04-29

mysql 中com.mysql.jdbc.PacketTooBigException 解决办法 2019-04-29

awk 的内置变量 NF、NR、FNR、FS、OFS、RS、ORS 2019-04-29

CentOS系统内核升级攻略 2019-04-29

linux系统时区修改（Debian的主机和docker） 2019-04-29

docker-compose 安装 2019-04-29

crontab 定时任务 2019-04-29

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 310083888 位访客