爬虫的概念-白红宇的个人博客

爬虫的概念

发布日期：2021-05-14 15:21:40 浏览次数：18 分类：精选文章

本文共 300 字，大约阅读时间需要 1 分钟。

爬虫的概念

爬虫是模拟浏览器发送HTTP/HTTPS请求并获取网页内容的工具

爬虫的核心流程

.Navigate到目标URL

.Perform GET/POST请求等

PARSER响应内容

提取所需数据

klady保存数据

爬虫处理的响应基于当前URL地址的网页内容

网页中常见的数据位置

当前URL请求的原始响应体内（例如HTML源码中）

JSON数据

AJAX接口返回的数据

JavaScript生成的数据形式

部分数据以纯文本形式存储

部分数据通过动态编译或运行逻辑生成

Python中常见的解码方法

response.content.decode(“utf-8”)

response.text

上一篇：pydicom数据的读取

下一篇：pydicom

发表评论

最新留言

网站不错人气很旺了加油

[***.192.178.218]2025年04月26日 05时45分02秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

【Bootstrap5】精细学习记录 2019-03-08

LeetCode197.打家劫舍 2019-03-08

A simple problem HDU-2522 【数学技巧】 2019-03-08

Struts2-从值栈获取list集合数据(三种方式) 2019-03-08

vscode中快速生成vue模板 2019-03-08

参考图像 2019-03-09

*.json: [“usingComponents“][“van-button“] 未找到 2019-03-09

设计模式（18）——中介者模式 2019-03-09

用JavaScript实现希尔排序 2019-03-09

error LNK2019:无法解析的外部符号_imp_CryptAcquireContextA@20 2019-03-09

推荐几篇近期必看的视觉综述，含GAN、Transformer、人脸超分辨、遥感等 2019-03-09

ERROR 1840 (HY000) at line 24: @@GLOBAL.GTID_PURGED 2019-03-09

BUU-MISC-认真你就输了 2019-03-09

BUU-MISC-caesar 2019-03-09

【专题2：电子工程师之上位机】之【36.事件重载】 2019-03-09

【专题3：电子工程师之上位机】之【46.QT音频接口】 2019-03-09

一文理解设计模式--命令模式（Command） 2019-03-09

VTK：可视化之RandomProbe 2019-03-09

block多队列分析 - 2. block多队列的初始化 2019-03-09

Java时间 2019-03-09

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 461289545 位访客

访问时间: 2025-05-05 16:33:02 访问IP: 18.224.199.201 Copyright © 2020 - 2025 css8.cn 京ICP备2021015314号-1 手机版