基于bs4的HTML内容遍历方法-白红宇的个人博客

基于bs4的HTML内容遍历方法

发布日期：2021-06-29 15:39:14 浏览次数：2 分类：技术文章

本文共 500 字，大约阅读时间需要 1 分钟。

1.HTML基本格式

2.标签树的下行遍历

属性说明

.contents 子节点的列表，将<tag>所有儿子节点存入列表

.children 子节点的迭代类型，与.content类似，用于循环遍历儿子节点

.descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

遍历儿子节点

for child in soup.body.children:

print(child)

遍历子孙节点

for child in soup.body.descendants

print(child)

3.标签树的上行遍历

属性说明

.parent 节点的父亲标签

.parents 节点先辈标签的迭代类型，用于循环遍历先辈节点

4.标签树的平行遍历

属性说明

.net_sibling 返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签

.next_siblings 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

转载地址：https://codingchaozhang.blog.csdn.net/article/details/76571599 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：信息标记与信息提取

下一篇：BeautifulSoup库的安装及基本元素

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！