python-快速使用urllib爬取网页（小结）-白红宇的个人博客

python-快速使用urllib爬取网页（小结）

发布日期：2021-06-29 12:30:07 浏览次数：2 分类：技术文章

本文共 305 字，大约阅读时间需要 1 分钟。

1、Urllib是Python提供的一个用于操作URL的库

Python2.X中（Urllib库+Urllib2库）

Python3.X中（Urllib库）

2、基于URL标准对字符的严密要求，我们有时要进行编码解码处理

3、有时爬取出现403错误时，有可能是所爬取的网站做了反爬虫处理

4、由于urlopen（）不支持一些HTTP高级功能，所以，我们如果要修改报头，那么我们使用urllib.request.build_opener()进行

5、使用urllib.request.Request()下的add_header（）实现浏览器模拟技术

6、URLError处理异常

7、try…except捕获异常

转载地址：https://bupt-xbz.blog.csdn.net/article/details/78883907 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：python爬取百思不得姐视频代码

下一篇：python-快速使用urllib爬取网页（8-URLError）

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

芯片为什么持续缺货？ 2019-04-29

缺货涨价很久的MCU的国产和国外厂家汇总！（80家） 2019-04-29

华为重磅反击，鸿蒙来了！ 2019-04-29

芯片IC附近为啥要放0.1uF的电容？ 2019-04-29

电赛 | 19年全国一等奖，北航学子回忆录。 2019-04-29

电赛 | 19年全国一等奖，北航学子回忆录(上) 2019-04-29

电赛 | 19年全国一等奖，北航学子回忆录(下) 2019-04-29

突破！台积电1nm芯片，有了新进展。 2019-04-29

一文读懂全系列树莓派！ 2019-04-29

聊聊我是如何编程入门的 2019-04-29

J-Link该如何升级固件？ 2019-04-29

485通信自动收发电路，历史上最详细的解释 2019-04-29

5G小科普（漫画版，So easy！） 2019-04-29

「第四篇」电赛控制题可以准备一些什么？ 2019-04-29

「第六篇」对于电赛，我们应该看重什么？ 2019-04-29

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 310024422 位访客