jsoup入门
来源:互联网 发布:中国近代史知乎 编辑:程序博客网 时间:2024/05/22 04:44
简介
jsoup是一种用于处理HTML的java库。它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM、CSS和类似jQuery的方法。
官网
https://jsoup.org/
下载地址
下载页面包括Jar包,Maven下载,Gradle下载方式
https://jsoup.org/download
API文档
官网英文版:
http://www.open-open.com/jsoup/load-document-from-file.htm
中文翻译版:
http://www.open-open.com/jsoup/parsing-a-document.htm
案例:解析和遍历一个HTML文档
如何解析一个HTML文档:
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);
其解析器能够尽最大可能从你提供的HTML文档来创建一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
没有关闭的标签 : <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
隐式标签 : 它可以自动将 <td>Table data</td>包装成<table><tr><td>Table data</td><tr></table>
创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
一个文档的对象模型
文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
其继承结构如下:Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
- Jsoup入门
- Jsoup入门
- Jsoup入门
- Jsoup入门
- Jsoup入门
- Jsoup入门
- jsoup入门
- jsoup Cookbook(中文版) 入门
- Jsoup入门指南
- Jsoup入门-java
- 01-jsoup入门
- 爬虫之jsoup入门指南
- Jsoup官方教程(一)【入门】
- JSoup入门笔记--------java HTML 解析库
- Jsoup入门:解析html 抽取数据
- Java爬虫入门之Jsoup使用
- jsoup
- jsoup
- 使用soci操作数据库
- Mysql索引的优化分析-索引的简介
- BZOJ 4552 排序(二分 || 线段树合并)
- 关闭流
- HDU 6105 Gameia
- jsoup入门
- 字符串操作函数
- 日期范围选择类日历(增强版)
- cookie 和session 的区别详解
- Apply call
- JAVA 标识符的常见的命名规则
- HTTP POST提交数据方式不同引起的躺坑记
- IO流学习-02
- LeetCode