Python 爬虫-正则表达式
发布日期:2022-04-02 18:15:34 浏览次数:10 分类:博客文章

本文共 1567 字,大约阅读时间需要 5 分钟。

2017-07-27 13:52:08

 一、正则表达式的概念

(1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中。

  • 正则表达式是用来简洁表达一组字符串的表达式
  • 正则表达式是一种通用的字符串表达框架
  • 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
  • 正则表达式可以用来判断某字符串的特征归属

 

(2)正则表达式是一个字符串,通过编译将符合正则表达式语法的字符串转换成正则表达式特征。

 

二、正则表达式的语法

正则表达式语法由字符和操作符构成。

(1)正则表达式的操作符

经典的正则表达式:

 

 

三、Re库的使用

re库采用原生字符串(raw string)来表达正则表达式。所谓原生字符串是指没有反义字符的字符串,也就是说在原生字符中‘\’就是反斜杠,不是转义。使用原生字符串只需要在字符串前加上r即可。

也可以使用正常的string字符串,不过使用string字符串的话需要很多的转义字符来表示单纯的反斜杠。

Re库的主要功能函数:

  • re.search(pattern, string, flags=0):在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ string : 待匹配字符串
∙ flags  : 正则表达式使用时的控制标记

 

  • re.match(pattern, string, flags=0):从一个字符串的开始位置起匹配正则表达式,返回match对象

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ string : 待匹配字符串
∙ flags  : 正则表达式使用时的控制标记

  • re.findall(pattern, string, flags=0):搜索字符串,以列表类型返回全部能匹配的子串

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ string : 待匹配字符串
∙ flags  : 正则表达式使用时的控制标记

  • re.split(pattern, string, maxsplit=0, flags=0):将一个字符串按照正则表达式匹配结果进行分割,返回列表类型

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ string : 待匹配字符串
∙ maxsplit: 最大分割数,剩余部分作为最后一个元素输出
∙ flags  : 正则表达式使用时的控制标记

 

  • re.finditer(pattern, string, flags=0):搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ string : 待匹配字符串
∙ flags  : 正则表达式使用时的控制标记

  • re.sub(pattern, repl, string, count=0, flags=0):在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ repl : 替换匹配字符串的字符串
∙ string : 待匹配字符串
∙ count  : 匹配的最大替换次数
∙ flags  : 正则表达式使用时的控制标记

 

正则表达式的另一种等价用法,使用 compile () 函数:

经过了compile后的正则表达式可以使用如下函数,这里只需要给出需要匹配的字符串就可以了:

 

三、Re库的match对象

Match对象是一次匹配的结果,包含匹配的很多信息。

  •  match对象的属性

  • match对象的方法

 

四、贪婪匹配与最小匹配

Re库默认采用贪婪匹配,即输出匹配最长的子串;

只要长度输出可能不同的,都可以通过在操作符后增加?变成最小匹配

 

 

转载地址:https://www.cnblogs.com/hyserendipity/p/7244468.html 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:python-迭代器和生成器
下一篇:Python 爬虫-Scrapy爬虫框架

发表评论

最新留言

第一次来,支持一个
[***.219.124.196]2024年03月22日 01时51分10秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

【Leetcode刷题篇】leetcode10 正则表达式匹配 2019-04-26
【Leetcode刷题篇】leetcode32 最长有效括号 2019-04-26
【Leetcode刷题篇】leetcode128 最长连续序列 2019-04-26
【Leetcode刷题篇】leetcode72 编辑距离 2019-04-26
【Leetcode刷题篇】leetcode312 戳气球 2019-04-26
前后端分离如何使用spring boot处理跨域请求 2019-04-26
【Leetcode刷题篇】leetcode283 移动零 2019-04-26
【Leetcode刷题篇】leetcode611 有效三角形的个数 2019-04-26
【Leetcode刷题篇】leetcode26 删除排序数组中的重复项 2019-04-26
【大话Java面试】-如何通俗易懂的理解Redis的分布式寻址算法hash slot? 2019-04-26
【大话Java面试】-如何通俗易懂的理解单例模式? 2019-04-26
【大话Java面试】请列出Java中几个常用的设计模式? 2019-04-26
【大话Java面试】-如何通俗易懂的理解Java异常以及Java异常处理? 2019-04-26
【大话Mysql面试】-Mysql的索引为什么要使用B+树,而不是B树,红黑树等之类? 2019-04-26
【大话Mysql面试】-如何通俗易懂的了解Mysql的索引最左前缀匹配原则 2019-04-26
【大话Mysql面试】-MYSQL的两种存储引擎MyISAM与InnoDB的区别是什么? 2019-04-26
【大话Mysql面试】-InnoDB可重复读隔离级别下如何避免幻读?MVCC和next-key是什么 2019-04-26
【大话Mysql面试】-Mysql如何恢复数据?如何进行主从复制?Binlog日志到底是什么? 2019-04-26
理解String.intern()和String类常量池疑难解析例子 2019-04-26
python flask打造前后端分离的口罩检测 2019-04-26