【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
来源:互联网 发布:国家中医药大数据平台 编辑:程序博客网 时间:2024/06/06 09:13
原文出自https://jsoup.org/cookbook/introduction/parsing-a-document
一、文档解析:
//获取需解析的HTML字符串String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";//调用方法获取Document对象Document doc = Jsoup.parse(html);
文档解析器会根据所提供的HTML尽力创建较为纯净的转换对象,忽略HTML语言是否规范。比如:
1、未有效关闭的tag:
<p>Lorem <p>Ipsum转换成:<p>Lorem</p> <p>Ipsum</p>
2、内部tag未正确嵌套:
独立的<td>Table data</td>转换成:<table><tr><td>...
3、创建可靠的文档结构(HTML包含head及body)
二、DOM:
1、文档由Element【元素】和TextNode【文本节点】,以及其它Node组成。
2、继承层级为:Document-->Element-->Node
TextNode-->Node
3、Element包含一系列Children Nodes【子节点】,自身仅有一个parent Element【父级Element】。它们提供了经过滤的子元素列表。
0 0
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【Java Utility】Jsoup网页爬虫工具--处理URL链接【十】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- Java 爬虫工具Jsoup解析
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- java 爬虫 网页解析(Jsoup)
- 爬虫系列(二)——网页解析Jsoup
- jsoup解析网页二
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- 洛谷oj
- grep+sort+uniq分组统计固定格式字符出现次数
- tensorflow 的 Batch Normalization 实现(tf.nn.moments、tf.nn.batch_normalization)
- Themeleaf的使用
- C/C++之sizeof与strlen的区别
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- Eclipse常用快捷键整理
- svn插件 myeclipse 官网下载
- JAVA 细节整理
- TabLayout的使用
- 【C++, Java】C++模板和Java泛型之间有何不同?
- Android Bander设计与实现
- docker的三大组件:镜像,容器,仓库
- 责任链模式综述(基础篇)