Python的爬虫利器之urllib

发布日期：2021-05-07 16:37:34 浏览次数：29 分类：原创文章

本文共 714 字，大约阅读时间需要 2 分钟。

urllib包

urllib是一个包含几个模块来处理请求的库：
- urllib.request发送http请求
- urllib.error处理请求过程中出现的异常
- urllib.parse解析url
- urllib.robotparser解析robots.txt文件

一般我们爬虫只需要常用的几个，下面只列出比较常用的函数

我们使用urllib模块，那就要引用模块

import urllib.request

urlreteieve：直接下载网页到本地

格式

urlreteieve（网址，本地的文件）

示例：

import urllib.requesturllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")print("下载完成")

urlcleanup：清楚系统缓存

import urllib.requesturllib.request.urlcleanup()urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")print("下载完成")

info() ：看相应情况的简介

import urllib.requestfile=urllib.request.urlopen("https://read.douban.com/provider/all")print(file.info())

getcode() 返回网页爬取状态码

geturl() 获取当前访问的网页的url

上一篇：Maven+SSM框架，实现单表简单的增删改查

下一篇：Python的正则表达式

发表评论

最新留言

路过按个爪印，很不错，赞一个！

[***.219.124.196]2025年04月10日 14时52分04秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

jQuery中的动画 2019-03-04

1.2.3 项目、项目集、项目组合以及运营管理之间的关系 2019-03-04

【△重点△】LeetCode - 4. 寻找两个正序数组的中位数——二分查找 2019-03-04

LeetCode - 5. 最长回文子串——字符串、动态规划 2019-03-04

全局锁和表锁：给表加个字段怎么有这么多阻碍？ 2019-03-04

二分查找与插入排序的结合使用 2019-03-04

892 三维形体的表面积（分析） 2019-03-04

279 完全平方数（bfs） 2019-03-04

875 爱吃香蕉的珂珂（二分查找） 2019-03-04

第十一届蓝桥杯python组第二场省赛-数字三角形 2019-03-04

BST中某一层的所有节点（宽度优先搜索） 2019-03-04

广度优先搜索 2019-03-04

Eclipse导出项目出现resource is out of sync with the file...错误 2019-03-04

Dijkstra算法的总结 2019-03-04

C语言的运算符和表达式 2019-03-04

Vue实现选项卡功能 2019-03-04

uni-app请求头中携带token 2019-03-04

vue中接收后台的图片验证码并显示 2019-03-04

Vue入门学习笔记（1） 2019-03-04

趣谈win10常用快捷键 2019-03-04

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 457365003 位访客

访问时间: 2025-04-17 04:32:52 访问IP: 18.227.134.222 Copyright © 2020 - 2025 css8.cn 京ICP备2021015314号-1 手机版