0000爬虫准备篇(持续补充)
发布日期:2021-05-07 18:24:44 浏览次数:23 分类:精选文章

本文共 892 字,大约阅读时间需要 2 分钟。

在这里插入图片描述

Request URL:我们请求的页面URL
Requests Method:页面的请求方式
Status Code:相应状态码
Remote Address:我们访问国内网站使用的IP地址
Referrer Policy:用于过滤Referer内容,这里的意思是当发生降级的时候不传递referer报头
下面是常见的HTTP状态码:
200 请求成功
301 永久移动
302 暂时移动
304 内容未修改
400 客户端请求错误
403 客户端的请求被服务器拒绝
404 页面丢失
405 客户端请求的方法错误
500 服务器内部错误
502 远程服务器响应无效
在这里插入图片描述
Accept:表示客户端会接受的文本
Accept-Encoding:表示客户端可以接受的编码方式
Accept-Language:表示客户端可以接受的语言
Cache-Control:客户端是否使用缓存
Connection:客户端请求连接时长,这里是长连接
Cookie:保存在客户端本地的可被服务端识别身份的数据
Host:客户端请求的主机
User-Agent:客户端使用什么终端访问
DNT:表示客户端是否允许网站追踪,这里是1可以追踪
Upgrade-Insecure-Request:表示客户端优先接受加密响应
Program:HTTP1.0用来向后兼容只支持HTTP1.0的缓存服务器
在这里插入图片描述
Cache-Control:服务器指定缓存方式,这里表示代理服务器不能缓存,只能用户缓存
Connection:当前事务结束后是否关闭连接
Content-Encoding:内容编码方式
Content-Type:返回的数据类型
Expires:在此日期之后,相应失效
Server:服务器处理信息的软件信息
Set-Cookie:服务器给客户端设置cookies
Strict-Transport-Security:在这个时间内发起的请求都使用HTTPS
Transfer-Encoding:数据以块的方式发送

(持续补充)

工具:pycharm、fiddler、chrome
需要的库:requests、bs4

上一篇:0001 requests库的简单使用,自动下载百度图片中的图片(优雅地云吸猫)
下一篇:8086汇编语言21键电子琴

发表评论

最新留言

能坚持,总会有不一样的收获!
[***.219.124.196]2025年03月27日 13时54分44秒