Python的爬虫利器之urllib
发布日期:2021-05-07 16:37:34 浏览次数:29 分类:原创文章

本文共 714 字,大约阅读时间需要 2 分钟。

 


urllib包 



urllib是一个包含几个模块来处理请求的库: 
- urllib.request发送http请求 
- urllib.error处理请求过程中出现的异常 
- urllib.parse解析url 
- urllib.robotparser解析robots.txt文件


一般我们爬虫只需要常用的几个,下面只列出比较常用的函数


我们使用urllib模块,那就要引用模块

import urllib.request

urlreteieve:直接下载网页到本地


格式



urlreteieve(网址,本地的文件)


示例:


import urllib.requesturllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")print("下载完成")


urlcleanup:清楚系统缓存


import urllib.requesturllib.request.urlcleanup()urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")print("下载完成")


info() :看相应情况的简介


import urllib.requestfile=urllib.request.urlopen("https://read.douban.com/provider/all")print(file.info())


getcode() 返回网页爬取状态码



 


geturl()  获取当前访问的网页的url


上一篇:Maven+SSM框架,实现单表简单的增删改查
下一篇:Python的正则表达式

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2025年04月10日 14时52分04秒