jsoup解析HTML用法小结
发布日期:2021-07-01 01:42:35 浏览次数:2 分类:技术文章

本文共 2735 字,大约阅读时间需要 9 分钟。

转载自   

使用HttpClient+jsoup做采集器有一段时间了,发现jsoup很好用,而且还有很多方便的东西都没怎么用上。于是想根据官网上的cookbook来对jsoup的使用做个小结,或者是归纳。按功能分类做个列表,方便在写程序的时候快速翻阅。

1、jsoup的HTML文档(Document)对象模型

  • Document对象由Element和TextNode对象组成
  • 继承链
    Document extends Element extends Node
    TextNode extends Node
  • Element包括一个子Node的列表及一个父Element

2、解析文档

  • 从字符串解析
    String html = "First parse"   + "

    Parse HTML into a doc.

    ";Document doc = Jsoup.parse(html);
  • 从URL获取并解析
    Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title();
    Document doc = Jsoup.connect("http://example.com")  .data("query", "Java")  .userAgent("Mozilla")  .cookie("auth", "token")  .timeout(3000)  .post();
  • 从文件解析
    File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

3、DOM方式遍历元素

搜索元素

  • getElementById(String id)
  • getElementByTag(String tag)
  • getElementByClass(String className)
  • getElementByAttribute(String key)
  • siblingElements()firstElementSibling()lastElementSibling()nextElementSibling(),previousElementSibling()
  • parent()children()child(int index)

获取元素数据

  • attr(String key) – 获取key属性
  • attributes() – 获取属性
  • id()className()classNames()
  • text() – 获取文本内容
  • html() – 获取元素内部HTML内容
  • outerHtml() – 获取包括此元素的HTML内容
  • data() – 获取<srcipt><style>标签中的内容
  • tag()tagName()

4、选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)

 基本选择器

  • tagname: 搜索tag标签的元素
  • ns|tag: 搜索命名空间内tag标签的元素,如fb|name<fb:name>
  • #id: 搜索有指定id的元素
  • .class: 搜索有指定class的元素
  • [attribute]: 搜索有attrribute属性的元素
  • [^attri]: 搜索有以attri开头的属性的元素
  • [attr=value]: 搜索有指定属性及其属性值的元素
  • [attr^=value][attr$=value][attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/]
  • [attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素
  • *: 搜索所有元素

选择器组合

  • el#id: 同时指定标签名称和id
  • el.class: 同时指定标签名称和class
  • el[attr]: 同时指定标签名称和及其中所含属性的名称
  • 上述3项的任意组合,如a[href].highlight
  • ancestor child: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素
  • ancestor > child: 直接包含,如div.content > p,即搜索直属<div class="content">节点下的<p>标签元素;div.content > *,即搜索<div class="content">下的所有元素
  • siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class="head"><div>的元素,其中不再包含子元素
  • siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素
  • el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素

 伪选择器(条件选择器)

  • :lt(n): 搜索n号元素之前的元素
  • :gt(n): 搜索n号元素之后的元素
  • :eq(n): 搜索n号元素
  • :has(seletor): 搜索符合指定选择器的元素
  • :not(seletor): 搜索不符合指定选择器的元素
  • :contains(text): 搜索包含指定文本的元素,区分大小写
  • :containsOwn(text): 搜索直接指包含指定文本的元素
  • :matches(regex): 搜索符合指定正则表达式的元素
  • :matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素
  • 注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……

5、获取元素的属性、文本和HTML

  • 获取元素的属性值:Node.attr(String key)
  • 获取元素的文本,包括与其组合的子元素:Element.text()
  • 获取HTML:Element.html()Node.outerHtml()

6、操作URL

  • Element.attr("href") – 直接获取URL
  • Element.attr("abs:href")Element.absUrl("href") – 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串

转载地址:https://maokun.blog.csdn.net/article/details/80675000 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Jsoup代码解读之一-概述
下一篇:Jsoup解析HTML实例及文档方法详解

发表评论

最新留言

做的很好,不错不错
[***.243.131.199]2024年04月10日 04时07分54秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章