jsoup教程002-解析和遍历一个html文档
来源:互联网 发布:js中的target属性 编辑:程序博客网 时间:2024/06/06 11:46
jsoup教程002-解析和遍历一个html文档
如何解析一个HTML文档:
String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
- 没有关闭的标签 (比如:
<p>Lorem <p>Ipsum
parses to<p>Lorem</p> <p>Ipsum</p>
) - 隐式标签 (比如. 它可以自动将
<td>Table data</td>
包装成<table><tr><td>?
) - 创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
一个文档的对象模型
- 文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细:nodes package tree.)
Hierarchy For Package org.jsoup.nodesPackage Hierarchies: All Packages Class Hierarchy java.lang.Object org.jsoup.nodes.Attribute (implements java.lang.Cloneable, java.util.Map.Entry<K,V>) org.jsoup.nodes.BooleanAttribute org.jsoup.nodes.Attributes (implements java.lang.Cloneable, java.lang.Iterable<T>) org.jsoup.nodes.Document.OutputSettings (implements java.lang.Cloneable) org.jsoup.nodes.Entities org.jsoup.nodes.Node (implements java.lang.Cloneable) org.jsoup.nodes.Comment org.jsoup.nodes.DataNode org.jsoup.nodes.DocumentType org.jsoup.nodes.Element org.jsoup.nodes.Document org.jsoup.nodes.FormElement org.jsoup.nodes.TextNode org.jsoup.nodes.XmlDeclarationEnum Hierarchy java.lang.Object java.lang.Enum<E> (implements java.lang.Comparable<T>, java.io.Serializable) org.jsoup.nodes.Entities.EscapeMode org.jsoup.nodes.Document.OutputSettings.Syntax org.jsoup.nodes.Document.QuirksMode
- 其继承结构如下:Document继承Element继承Node.TextNode继承Node.
- 一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
阅读全文
0 0
- jsoup教程002-解析和遍历一个html文档
- jsoup官方解析和遍历一个HTML文档
- 【Jsoup学习礼记】解析和遍历一个HTML文档
- jsoup Cookbook——解析和遍历一个html文档
- JSOUP实践:解析和遍历HTML文档
- JSOUP实践:解析和遍历HTML文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- jsoup 解析HTML 文档
- jsoup解析html文档
- Jsoup-解析Html文档
- 使用Jsoup解析HTML和文档
- Jsoup解析Html教程
- Jsoup解析Html教程
- Jsoup解析Html教程
- Jsoup解析Html教程
- jsoup教程006-使用DOM方法来遍历一个文档
- 使用JSOUP解析HTML文档
- 主动学习中的QBC算法
- 微信JS-SDK是微信公众平台面向网页开发者提供的基于微信内的网页开发工具包。
- 前端开发工程师必须关注的几个性能指标
- 趣图:这个程序媛在万圣节居然 COS 这个……
- 如何在工作之余找精力做副项目?
- jsoup教程002-解析和遍历一个html文档
- javascript 页面刷新
- 图形圆角xml
- Docker学习五:仓库
- Handler的原理
- 欢迎使用CSDN-markdown编辑器
- Java开发大型互联网RPC框架 Dubbo 实现原理之Dubbo实战
- 【用JavaScript学算法】最小可用ID
- HTML画圆,三角形,六边形