爬虫（1）—— Requests库入门（一）-白红宇的个人博客

爬虫（1）—— Requests库入门（一）

发布日期：2021-05-07 08:57:15 浏览次数：24 分类：精选文章

本文共 1156 字，大约阅读时间需要 3 分钟。

简介：

Requests 常用的爬虫库，用于自动爬取HTML页面，自动网络请求提交

特点：小规模、数据量小、爬取速度不敏感

适用范围：爬取网页，玩转网页

安装

安装使用cmd ，输入命令：pip install requests

简单的例子：

import requests# 请求网站r = requests.get('http://www.baidu.com')# 返回状态码print(r.status_code)# 设置字符编码r.encoding = 'utf-8'# 返回百度网页代码print(r.text)

get方法：

r=requests.get(url)

构造一个向服务器请求资源的Request对象，返回一个包含服务器资源的Response对象；r是返回的Response对象，可以调用requests库的方法

Request对象的常用属性

encoding与apparent_encoding的使用

例：

import requests# 请求网站r=requests.get('http://www.baidu.com')# 返回状态码print(r.status_code)# 查看网页编码print(r.encoding)# 查看备选编码print(r.apparent_encoding)# 修改编码r.encoding='utf-8'

r.encoding:如果header中不存在charset，则认为编码为ISO-8859-1r.apparent_encoding:根据网页内容分析出的编码内容

爬取网页的通用代码框架

因为 r=requests.get(url) 在获取网页信息时，会出现异常，所有使用通用代码框架

import requestsdef getHTMLText(url):    try:        r = requests.get(url, timeout=30)        r.raise_for_status()  # 如果状态不是200，引发HTTPError异常        r.encoding = r.apparent_encoding        return r.text    except:        return '产生异常'# 函数测试if __name__ == '__main__':    url = 'http://www.baidu.com'    print(getHTMLText(url))

常见的异常