【jsoup】使用DOM方法来遍历一个文档
来源:互联网 发布:vscode react 插件 编辑:程序博客网 时间:2024/06/05 05:27
使用DOM方法来遍历一个文档
问题
你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构。
方法
将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
查找元素
· getElementById(String id)
· getElementsByTag(String tag)
· getElementsByClass(String className)
· getElementsByAttribute(String key) (and related methods)
· Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
· Graph: parent(), children(), child(int index)
元素数据
· attr(String key)获取属性attr(String key, String value)设置属性
· attributes()获取所有属性
· id(), className() and classNames()
· text()获取文本内容text(String value) 设置文本内容
· html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
· outerHtml()获取元素外HTML内容
· data()获取数据内容(例如:script和style标签)
· tag() and tagName()
操作HTML和文本
· append(String html), prepend(String html)
· appendText(String text), prependText(String text)
· appendElement(String tagName), prependElement(String tagName)
· html(String value)
- jsoup使用DOM方法来遍历一个文档
- 【Jsoup学习礼记】使用DOM方法来遍历一个文档
- 【jsoup】使用DOM方法来遍历一个文档
- jsoup教程006-使用DOM方法来遍历一个文档
- 【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档
- 【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档
- jsoup Cookbook——使用DOM方法来遍历一个文档
- 使用DOM方法来遍历一个文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- jsoup官方解析和遍历一个HTML文档
- 【Jsoup学习礼记】解析和遍历一个HTML文档
- jsoup Cookbook——解析和遍历一个html文档
- jsoup教程002-解析和遍历一个html文档
- 一个好玩的使用dom遍历xml的方法
- DOM中使用节点对象遍历文档
- JS中使用DOM技术遍历文档
- 使用W3C DOM 和 JAXP 来建立和输出DOM文档并设置文档参数的方法
- 【jsoup】从一个文件加载一个文档
- 作业
- 完整java开发中JDBC连接数据库代码和步骤
- 【Python3.6爬虫学习记录】(十二)PhantomJS模拟登陆并爬取教务处学生照片(哈工大)
- RxJava2.0中create操作符用法和源码分析
- 【jsoup】使用DOM方法来遍历一个文档
- ES5 中 JavaScript的继承
- TCP网络编程中connect()、listen()、accept()三者之间的关系 from Me_Jiang
- js方法的封装
- 我决定简单地生活(笔记)——极简主义者的诞生源起
- 【jsoup】使用选择器语法来查找元素
- linux高级编程常用的系统调用函数整理
- 京东从OpenStack切换到Kubernetes的经验之谈
- [py]py字符编码unicode utf8 ascii