python-快速使用urllib爬取网页(小结)
发布日期:2021-06-29 12:30:07 浏览次数:2 分类:技术文章

本文共 305 字,大约阅读时间需要 1 分钟。

1、Urllib是Python提供的一个用于操作URL的库

Python2.X中(Urllib库+Urllib2库)
Python3.X中(Urllib库)

2、基于URL标准对字符的严密要求,我们有时要进行编码解码处理

3、有时爬取出现403错误时,有可能是所爬取的网站做了反爬虫处理

4、由于urlopen()不支持一些HTTP高级功能,所以,我们如果要修改报头,那么我们使用urllib.request.build_opener()进行

5、使用urllib.request.Request()下的add_header()实现浏览器模拟技术

6、URLError处理异常

7、try…except捕获异常

转载地址:https://bupt-xbz.blog.csdn.net/article/details/78883907 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:python爬取百思不得姐视频代码
下一篇:python-快速使用urllib爬取网页(8-URLError)

发表评论

最新留言

很好
[***.229.124.182]2024年04月12日 08时50分45秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章