
go 处理html数据
发布日期:2021-05-14 08:46:32
浏览次数:16
分类:精选文章
本文共 490 字,大约阅读时间需要 1 分钟。
//使用正则表达式去除所有尖括号内的HTML代码并换成换行符re, _ := regexp.Compile("\\<[\\S\\s]+?\\>")str := re.ReplaceAllString(str, "\n")fmt.Println(str)
代码解析与应用
在上述代码中,正则表达式`\\<[^\\s]+\\>`用于匹配任意不包含空白字符的内容,包括所有从`<`到`>`的标签。然后,`re.ReplaceAllString`函数将匹配到的内容替换为换行符`"\n"`,从而去除了所有的HTML标签。运行后,原始HTML代码将被转换为纯文本,换行符表示原始标签的位置。
去除多余空格处理
为了确保处理后的文本格式整洁,通常会进一步去除多余空格。以下是具体实现代码:
re, _ := regexp.Compile("\\s{1,}") str := re.ReplaceAllString(str, " ")
这一段代码使用正则表达式匹配一到多个空白字符,替换为单个空格,从而去除了多余的空格,提升了文本的可读性。这种处理方式在文本清洗和信息抽取场景中尤为常见。
发表评论
最新留言
路过,博主的博客真漂亮。。
[***.116.15.85]2025年05月01日 07时53分53秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
一些错误记录
2019-03-11
GridView自定义删除操作
2019-03-11
http常见响应状态码
2019-03-11
Nginx Location
2019-03-11
解决github Git clone 慢的问题
2019-03-11
一张图搞定RPC框架核心原理
2019-03-11
Scala中的包
2019-03-11
参加阿里的Java面试经验
2019-03-11
Python微信公众号
2019-03-11
他来了他来了,他带着云栖大会的免费门票走来了
2019-03-11
Oracle笔记
2019-03-11
如何复用外部shell脚本
2019-03-11
JAVA集合类Collection浅析
2019-03-11
获取linux 主机cpu类型
2019-03-11
限流的算法有哪些?
2019-03-11
Failed to notify build listener.
2019-03-11
TextWiew单个线条
2019-03-11
Android Studio updating indices 一直刷新和闪烁
2019-03-11
个人购买服务器问题?
2019-03-11
pwntools编写技巧
2019-03-11