Python爬虫基础-白红宇的个人博客

Python爬虫基础

发布日期：2021-07-01 05:19:42 浏览次数：2 分类：技术文章

本文共 364 字，大约阅读时间需要 1 分钟。

1. 爬虫简介

爬虫：一段自动抓取互联网信息的程序。

价值：互联网数据，为我所用！

2. 简单爬虫架构

Python简单爬虫架构

在这里插入图片描述

Python简单爬虫架构的动态运行流程

在这里插入图片描述

3. URL管理器

RUL管理器

管理待爬取RUL集合和已抓取URL集合。

防止重复抓取、防止循环抓取

实现方式

内存

如Python中：

待爬取URL集合：set()

已爬取URL集合：set()

关系数据库

如MySQL：

urls(url, is_crawled)

缓存数据库

如Redis：

待爬取URL集合：set

已爬取URL集合：set

4. 网页下载器(`urllib2`)

网页下载器：将互联网上RUL对应的网页下载到本地的工具。

Python有哪几种网页下载器呢？

Python官方基础模块：urllib2

更强大的第三方包：requests

转载地址：https://onefine.blog.csdn.net/article/details/86658551 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Navicat远程连接MySQL数据库

下一篇：Linux软件包管理之4——脚本安装包

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

1. 爬虫简介

2. 简单爬虫架构

Python简单爬虫架构

Python简单爬虫架构的动态运行流程

3. URL管理器

RUL管理器

实现方式

4. 网页下载器(`urllib2`)

Python有哪几种网页下载器呢？

发表评论

最新留言

关于作者

推荐文章

1. 爬虫简介

2. 简单爬虫架构

Python简单爬虫架构

Python简单爬虫架构的动态运行流程

3. URL管理器

RUL管理器

实现方式

4. 网页下载器(urllib2)

Python有哪几种网页下载器呢？

发表评论

最新留言

关于作者

推荐文章

4. 网页下载器(`urllib2`)