爬虫(1)—— Requests库入门(一)
发布日期:2021-05-07 08:57:15 浏览次数:24 分类:精选文章

本文共 1156 字,大约阅读时间需要 3 分钟。

简介:

Requests 常用的爬虫库,用于自动爬取HTML页面,自动网络请求提交
特点:小规模、数据量小、爬取速度不敏感
适用范围:爬取网页,玩转网页
安装
安装使用cmd ,输入命令:pip install requests
在这里插入图片描述
简单的例子:

import requests# 请求网站r = requests.get('http://www.baidu.com')# 返回状态码print(r.status_code)# 设置字符编码r.encoding = 'utf-8'# 返回百度网页代码print(r.text)

get方法:

r=requests.get(url)
构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象;r是返回的Response对象,可以调用requests库的方法

Request对象的常用属性

在这里插入图片描述

encoding与apparent_encoding的使用

例:

import requests# 请求网站r=requests.get('http://www.baidu.com')# 返回状态码print(r.status_code)# 查看网页编码print(r.encoding)# 查看备选编码print(r.apparent_encoding)# 修改编码r.encoding='utf-8'
r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1r.apparent_encoding:根据网页内容分析出的编码内容

爬取网页的通用代码框架

因为 r=requests.get(url) 在获取网页信息时,会出现异常,所有使用通用代码框架

import requestsdef getHTMLText(url):    try:        r = requests.get(url, timeout=30)        r.raise_for_status()  # 如果状态不是200,引发HTTPError异常        r.encoding = r.apparent_encoding        return r.text    except:        return '产生异常'# 函数测试if __name__ == '__main__':    url = 'http://www.baidu.com'    print(getHTMLText(url))

常见的异常

在这里插入图片描述
HTTP协议
HTTP:超文本传输协议,是一个基于“请求与响应”模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识
HTTP协议对资源的操作
在这里插入图片描述
理解patch和put的区别
在这里插入图片描述

上一篇:刷题日记--易忘汇总(string篇)
下一篇:刷题日记--完全计算器(计算器通解)

发表评论

最新留言

很好
[***.229.124.182]2025年04月12日 10时59分06秒