【Python自学笔记】新手爬虫必备！Scrapy如何使用Selector快速提取HTML页面数据（CSS/Xpath/re正则）

发布日期：2021-06-28 16:35:20 浏览次数：2 分类：技术文章

本文共 250 字，大约阅读时间需要 1 分钟。

文章目录

HTML页面数据提取

我们这里直接从获取response后在parse()方法中的数据提取，如果您需要了解更多的内容，请，在Scrapy中可以直接使用我们自己熟悉的数据提取方式，例如：bs4、re、lxml等。但是我更推荐使用Scrapy自带的选择器Selector，它可以让我们更便捷的使用Xpath、CSS等工具。这里我们就来一起学习一下在Scrapy中如何使用CSS、Xpath等工具来提取数据。

CSS

使用CSS进行数据提取需要掌握一定的CSS选择器语法，如果您还不了解，可以阅读

转载地址：https://blog.csdn.net/xiaoqiangclub/article/details/117743346 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：【Python自学笔记】新手爬虫必备！Scrapy中如何实现数据传递（meta&cb_kwargs）！

下一篇：【Python自学笔记】新手爬虫必备！Scrapy快速下载图片&文件，如何自定义文件名（源码）

发表评论

最新留言

逛到本站，mark一下

[***.202.152.39]2024年04月04日 02时45分21秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

Java集合框架List，Map，Set等全面介绍 2019-04-29

Java 泛型（二）泛型之中的通配符（Wildcards）使用 2019-04-29

7-36 复数四则运算 (15 分) 2019-04-29

基于powershell的渗透测试工具nishang 2019-04-29

pycharm创建django项目linux部署 2019-04-29

利用Android Studio快速搭建App 2019-04-29

CompletableFuture的多线程和异步监听实现 2019-04-29

HashMap jdk1.7和1.8概述 2019-04-29

springboot多环境加载yml和logback配置 2019-04-29

springboot中的拦截器interceptor和过滤器filter,多次获取request参数 2019-04-29

几道简单的算法题（来自leetcode） 2019-04-29

推一波JAVA学习公众号 2019-04-29

org.apache.ibatis.reflection.ReflectionException: Error instantiating class with invalid types 2019-04-29

elasticsearch 6.x (四) 单一文档 API 介绍和使用 index和get API 2019-04-29

HttpsURLConnection 返回 400 2019-04-29

python基础语法05 2019-04-29

Linux基础01 2019-04-29

工作总结04-脚本 2019-04-29

01-MYSQL8环境搭建 2019-04-29

02-初始数据库 2019-04-29

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 309233616 位访客

访问时间: 2024-04-30 04:26:09 访问IP: 18.116.63.236 Copyright © 2020 - 2023 blog.css8.cn 京ICP备2021015314号-1 手机版