jsoup解析HTML用法小结
发布日期:2021-07-01 01:42:35
浏览次数:2
分类:技术文章
本文共 2735 字,大约阅读时间需要 9 分钟。
转载自
使用HttpClient+jsoup做采集器有一段时间了,发现jsoup很好用,而且还有很多方便的东西都没怎么用上。于是想根据官网上的cookbook来对jsoup的使用做个小结,或者是归纳。按功能分类做个列表,方便在写程序的时候快速翻阅。
1、jsoup的HTML文档(Document)对象模型
- Document对象由Element和TextNode对象组成
- 继承链
Document extends Element extends Node
TextNode extends Node
- Element包括一个子Node的列表及一个父Element
2、解析文档
- 从字符串解析
String html = "
First parse " + "Parse HTML into a doc.
";Document doc = Jsoup.parse(html); - 从URL获取并解析
Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title();
Document doc = Jsoup.connect("http://example.com") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post();
- 从文件解析
File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
3、DOM方式遍历元素
搜索元素
getElementById(String id)
getElementByTag(String tag)
getElementByClass(String className)
getElementByAttribute(String key)
siblingElements()
,firstElementSibling()
,lastElementSibling()
,nextElementSibling()
,previousElementSibling()
parent()
,children()
,child(int index)
获取元素数据
attr(String key)
– 获取key属性attributes()
– 获取属性id()
,className()
,classNames()
text()
– 获取文本内容html()
– 获取元素内部HTML内容outerHtml()
– 获取包括此元素的HTML内容data()
– 获取<srcipt>
或<style>
标签中的内容tag()
,tagName()
4、选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
基本选择器
tagname
: 搜索tag
标签的元素ns|tag
: 搜索命名空间内tag
标签的元素,如fb|name
:<fb:name>
#id
: 搜索有指定id
的元素.class
: 搜索有指定class
的元素[attribute]
: 搜索有attrribute
属性的元素[^attri]
: 搜索有以attri
开头的属性的元素[attr=value]
: 搜索有指定属性及其属性值的元素[attr^=value]
,[attr$=value]
,[attr*=value]
: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/]
[attr~=regex]
: 搜索有指定attr
属性,且其属性值符合regex正则表达式的元素*
: 搜索所有元素
选择器组合
el#id
: 同时指定标签名称和idel.class
: 同时指定标签名称和class
el[attr]
: 同时指定标签名称和及其中所含属性的名称- 上述3项的任意组合,如
a[href].highlight
ancestor child
: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素ancestor > child
: 直接包含,如div.content > p
,即搜索直属<div class="content">
节点下的<p>
标签元素;div.content > *
,即搜索<div class="content">
下的所有元素siblingA + siblingB
: 直接遍历,如div.head + div
,即搜索<div class="head"><div>
的元素,其中不再包含子元素siblingA ~ siblingX
: 遍历,如h1 ~ p
,即<h1>
下直接或间接有<p>
的元素el, el, el
: 组合多个选择器,搜索满足其中一个选择器的元素
伪选择器(条件选择器)
:lt(n)
: 搜索n号元素之前的元素:gt(n)
: 搜索n号元素之后的元素:eq(n)
: 搜索n号元素:has(seletor)
: 搜索符合指定选择器的元素:not(seletor)
: 搜索不符合指定选择器的元素:contains(text)
: 搜索包含指定文本的元素,区分大小写:containsOwn(text)
: 搜索直接指包含指定文本的元素:matches(regex)
: 搜索符合指定正则表达式的元素:matchesOwn(regex)
: 搜索本元素文本中符合指定正则表达式的元素- 注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……
5、获取元素的属性、文本和HTML
- 获取元素的属性值:
Node.attr(String key)
- 获取元素的文本,包括与其组合的子元素:
Element.text()
- 获取HTML:
Element.html()
或Node.outerHtml()
6、操作URL
Element.attr("href")
– 直接获取URLElement.attr("abs:href")
或Element.absUrl("href")
– 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)
来指定基URL,否则获取的完整URL只会是空字符串
转载地址:https://maokun.blog.csdn.net/article/details/80675000 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
做的很好,不错不错
[***.243.131.199]2024年04月10日 04时07分54秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Java高级部分流---换个角度思考流
2019-05-01
如何解决电脑ip地址冲突的问题
2019-05-01
Win下如何查看本地计算机的网络端口被哪个应用程序所占用
2019-05-01
TCP/IP、Http、Socket的区别
2019-05-01
Java高级部分容器重点总结下
2019-05-01
Java高级部分流重点总结上
2019-05-01
git使用问题总结
2019-05-01
怎么用kms工具给win7企业版激活
2019-05-01
Linux和windows之间copy文件常用方法
2019-05-01
搭建samba服务器实现Linux磁盘或文件夹映射为 Windows网络磁盘
2019-05-01
近半年的读书总结
2019-05-01
从RTSP协议SDP数据中获得二进制的SPS、PPS
2019-05-01
我总结的Android编程规范
2019-05-01
wireshark长时间抓包分多个文件
2019-05-01
我对计算机系统的理解
2019-05-01
包装类(Wrapper Class)
2019-05-01
The Volume is dirty 的解决方法
2019-05-01
对一批编号为1~100,全部开关朝上(开)的灯进行以下操作:凡是1的倍数反方向拨一次开关;2的倍数反方向又拨一次开关;3的倍数反方向又拨一次开关……问:最后为关熄状态的灯的编号。
2019-05-01
Html2Servlet--Html代码转换为Servlet小程序
2019-05-01