【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】

来源：互联网发布：国家中医药大数据平台编辑：程序博客网时间：2024/06/06 09:13

原文出自https://jsoup.org/cookbook/introduction/parsing-a-document

一、文档解析：

//获取需解析的HTML字符串String html = "<html><head><title>First parse</title></head>"  + "<body><p>Parsed HTML into a doc.</p></body></html>";//调用方法获取Document对象Document doc = Jsoup.parse(html);

文档解析器会根据所提供的HTML尽力创建较为纯净的转换对象，忽略HTML语言是否规范。比如：
1、未有效关闭的tag：
Lorem Ipsum转换成：Lorem Ipsum
2、内部tag未正确嵌套：
独立的<td>Table data</td>转换成：<table><tr><td>...
3、创建可靠的文档结构（HTML包含head及body）

二、DOM：
1、文档由Element【元素】和TextNode【文本节点】，以及其它Node组成。
2、继承层级为：Document-->Element-->Node
TextNode-->Node

3、Element包含一系列Children Nodes【子节点】，自身仅有一个parent Element【父级Element】。它们提供了经过滤的子元素列表。

0 0