
python re sub
首先用指定想法去掉JavaScript代码,避免潜在的怀疑; 然后用通用的正则表达式去除其余的HTML标签; 最后根据实际需要对处理后的文本进行进一步优化。
发布日期:2021-05-13 00:13:06
浏览次数:16
分类:精选文章
本文共 773 字,大约阅读时间需要 2 分钟。
在处理小说文本内容时,常需要对HTML标签进行去除处理。以下是一些实际操作指南,帮助你更高效地清理字文内容。
首先,建议先去除所有的JavaScript脚本标签。这样可以避免在后续处理过程中带来的麻烦。具体实现方法如下:
使用正则表达式逐个去除所有的script标签。你可以采用以下写法:
import redef remove_script(script_string): return re.sub(r'
这一段代码用到了re.sub函数,参数flags=re.S
表示匹配模式将覆盖多行内容。带有<script>
标签的内容都会被清除掉。
接下来,在去除非script标签时,可以使用同样的正则表达式模式,只需要将script替换为空即可。例如:
t = re.sub(r'<([^>]+)>', '', t)
这一步骤会将除了script标签之外的所有HTML标签都去除。
需要注意的是,正则表达式匹配时,带有闭合标签的标签也会被正确处理。
在实际操作过程中,有一些常用的参数值需要注意:
count
参数设置为0,表示所有匹配项都将被替换;flags
参数中,re.I
表示忽略大小写,re.L
表示特殊字符集扩展;- 同时,一些开发者习惯使用
re.DOTALL
(即re.S
)来确保.``匹配包括空格和换行符。
操作步骤总结:
希望以上内容可以帮助你更好地完成小说内容清洗工作。记住,编写代码时要始终保持对文段处理逻辑的深刻理解,这是避免bug产生的关键。
发表评论
最新留言
不错!
[***.144.177.141]2025年04月28日 05时16分18秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
JVM内存模型
2019-03-11
反射机制
2019-03-11
反射Field、Method、Constructor
2019-03-11
可变长度参数
2019-03-11
堆空间常用参数总结
2019-03-11
3、条件查询
2019-03-11
5、分组函数 / 聚合函数
2019-03-11
8、子查询
2019-03-11
cordova打包apk更改图标
2019-03-11
开启与配置SMTP服务器
2019-03-11
APP卡片式设计
2019-03-11
GitHub上传时,项目在已有文档时直接push出现错误解决方案
2019-03-11
云数据库
2019-03-11
大数据在不同领域的应用
2019-03-11
页面置换算法
2019-03-11
推荐系统资料
2019-03-11
文件系统的层次结构
2019-03-11
减少磁盘延迟时间的方法
2019-03-11
vue(渐进式前端框架)
2019-03-11
权值初始化和与损失函数
2019-03-11