
爬虫(1)—— Requests库入门(一)
简单的例子:
HTTP协议 HTTP:超文本传输协议,是一个基于“请求与响应”模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识 HTTP协议对资源的操作
理解patch和put的区别
发布日期:2021-05-07 08:57:15
浏览次数:24
分类:精选文章
本文共 1156 字,大约阅读时间需要 3 分钟。
简介:
Requests 常用的爬虫库,用于自动爬取HTML页面,自动网络请求提交 特点:小规模、数据量小、爬取速度不敏感 适用范围:爬取网页,玩转网页 安装 安装使用cmd ,输入命令:pip install requestsimport requests# 请求网站r = requests.get('http://www.baidu.com')# 返回状态码print(r.status_code)# 设置字符编码r.encoding = 'utf-8'# 返回百度网页代码print(r.text)
get方法:
r=requests.get(url)
构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象;r是返回的Response对象,可以调用requests库的方法
Request对象的常用属性
encoding与apparent_encoding的使用
例:
import requests# 请求网站r=requests.get('http://www.baidu.com')# 返回状态码print(r.status_code)# 查看网页编码print(r.encoding)# 查看备选编码print(r.apparent_encoding)# 修改编码r.encoding='utf-8'
r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1r.apparent_encoding:根据网页内容分析出的编码内容
爬取网页的通用代码框架
因为 r=requests.get(url) 在获取网页信息时,会出现异常,所有使用通用代码框架import requestsdef getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() # 如果状态不是200,引发HTTPError异常 r.encoding = r.apparent_encoding return r.text except: return '产生异常'# 函数测试if __name__ == '__main__': url = 'http://www.baidu.com' print(getHTMLText(url))
常见的异常
发表评论
最新留言
很好
[***.229.124.182]2025年04月12日 10时59分06秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
C语言+easyX图形库的推箱子实现
2019-03-06
调试vs2019代码的流程
2019-03-06
脱壳与加壳-加壳-6-代码实现加密导入表
2019-03-06
Typora配置PicGo时,提示Failed to fetch
2019-03-06
bcolz的新操作
2019-03-06
zmq的send
2019-03-06
阿里钉钉面试题
2019-03-06
C++中找资源或者函数的方法
2019-03-06
delete对象时会自动调用类的析构函数
2019-03-06
POD类型
2019-03-06
const与常量,傻傻分不清楚~
2019-03-06
Head First设计模式——迭代器模式
2019-03-06
MongoDB版本及存储引擎区别
2019-03-06
shell echo单行和多行文字定向写入到文件中
2019-03-06
cmp命令
2019-03-06
Linux 磁盘管理(df fu fdisk mkfs mount)
2019-03-06
jQuery的事件绑定与触发 - 学习笔记
2019-03-06
Linux上TCP的几个内核参数调优
2019-03-06
记一次讲故事机器人的开发-我有故事,让机器人来读
2019-03-06
seo 回忆录百度基本概念(一)
2019-03-06