
Python的爬虫利器之urllib
发布日期:2021-05-07 16:37:34
浏览次数:29
分类:原创文章
本文共 714 字,大约阅读时间需要 2 分钟。
urllib包
urllib是一个包含几个模块来处理请求的库:
- urllib.request发送http请求
- urllib.error处理请求过程中出现的异常
- urllib.parse解析url
- urllib.robotparser解析robots.txt文件
一般我们爬虫只需要常用的几个,下面只列出比较常用的函数
我们使用urllib模块,那就要引用模块
import urllib.request
urlreteieve:直接下载网页到本地
格式
urlreteieve(网址,本地的文件)
示例:
import urllib.requesturllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")print("下载完成")
urlcleanup:清楚系统缓存
import urllib.requesturllib.request.urlcleanup()urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")print("下载完成")
info() :看相应情况的简介
import urllib.requestfile=urllib.request.urlopen("https://read.douban.com/provider/all")print(file.info())
getcode() 返回网页爬取状态码
geturl() 获取当前访问的网页的url
发表评论
最新留言
路过按个爪印,很不错,赞一个!
[***.219.124.196]2025年04月10日 14时52分04秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
jQuery中的动画
2019-03-04
1.2.3 项目、项目集、项目组合以及运营管理之间的关系
2019-03-04
【△重点△】LeetCode - 4. 寻找两个正序数组的中位数——二分查找
2019-03-04
LeetCode - 5. 最长回文子串——字符串、动态规划
2019-03-04
全局锁和表锁 :给表加个字段怎么有这么多阻碍?
2019-03-04
二分查找与插入排序的结合使用
2019-03-04
892 三维形体的表面积(分析)
2019-03-04
279 完全平方数(bfs)
2019-03-04
875 爱吃香蕉的珂珂(二分查找)
2019-03-04
第十一届蓝桥杯python组第二场省赛-数字三角形
2019-03-04
BST中某一层的所有节点(宽度优先搜索)
2019-03-04
广度优先搜索
2019-03-04
Dijkstra算法的总结
2019-03-04
C语言的运算符和表达式
2019-03-04
Vue实现选项卡功能
2019-03-04
uni-app请求头中携带token
2019-03-04
vue中接收后台的图片验证码并显示
2019-03-04
Vue入门学习笔记(1)
2019-03-04
趣谈win10常用快捷键
2019-03-04