【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】

来源:互联网 发布:国家中医药大数据平台 编辑:程序博客网 时间:2024/06/06 09:13

原文出自https://jsoup.org/cookbook/introduction/parsing-a-document

一、文档解析:

//获取需解析的HTML字符串String html = "<html><head><title>First parse</title></head>"  + "<body><p>Parsed HTML into a doc.</p></body></html>";//调用方法获取Document对象Document doc = Jsoup.parse(html);

文档解析器会根据所提供的HTML尽力创建较为纯净的转换对象,忽略HTML语言是否规范。比如:
1、未有效关闭的tag:
<p>Lorem <p>Ipsum转换成:<p>Lorem</p> <p>Ipsum</p>
2、内部tag未正确嵌套:
独立的<td>Table data</td>转换成:<table><tr><td>...
3、创建可靠的文档结构(HTML包含head及body)


二、DOM:
1、文档由Element【元素】和TextNode【文本节点】,以及其它Node组成。
2、继承层级为:Document-->Element-->Node
TextNode-->Node


3、Element包含一系列Children Nodes【子节点】,自身仅有一个parent Element【父级Element】。它们提供了经过滤的子元素列表。
0 0
原创粉丝点击