Jsoup加载HTML的三种方式
来源:互联网 发布:java broken pipe解决 编辑:程序博客网 时间:2024/05/29 09:38
转载:http://www.javacui.com/opensource/464.html
Jsoup加载HTML的三种方式,上一篇说的只是一种方式,直接从HTTP源网站获取。
从字符串解析
来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它。
1
2
3
String html =
"<html><head><title>First parse</title></head>"
+
"<body><p>from www.javacui.com</p></body></html>"
;
Document doc = Jsoup.parse(html);
只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少) 一个head和一个body元素。
一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。
实用示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
package
com.cui.test;
import
org.jsoup.Jsoup;
import
org.jsoup.nodes.Document;
import
org.jsoup.nodes.Element;
import
org.jsoup.select.Elements;
/**
* 从字符串解析HTML
* @author java小强
*/
public
class
StringHtmlSpider {
public
static
void
main(String[] args) {
try
{
String html =
"<html><head><title>First parse</title></head>"
+
"<body><p>from www.javacui.com</p></body></html>"
;
Document doc = Jsoup.parse(html);
Elements elements = doc.getElementsByTag(
"p"
);
// 根据标签获取
Element e = elements.get(
0
);
// 因为我知道只有一个p
System.out.println(e.text());
// 打印 from www.javacui.com
}
catch
(Exception e) {
e.printStackTrace();
}
}
}
从本地文件加载
在本机硬盘上有一个HTML文件,需要对它进行解析从中抽取数据或进行修改。本示例HTML文件内容和上面示例字符串内容一致。
1
2
File input =
new
File(
"D:\\javacui.html"
);
Document doc = Jsoup.parse(input,
"UTF-8"
);
这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误,将抛出IOException,应作适当处理。
实用示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
package
com.cui.test;
import
java.io.File;
import
org.jsoup.Jsoup;
import
org.jsoup.nodes.Document;
import
org.jsoup.nodes.Element;
import
org.jsoup.select.Elements;
/**
* 从本地文件解析HTML
* @author java小强
*/
public
class
LocalDiskSpider {
public
static
void
main(String[] args) {
try
{
File input =
new
File(
"D:\\javacui.html"
);
Document doc = Jsoup.parse(input,
"UTF-8"
);
Elements elements = doc.getElementsByTag(
"p"
);
// 根据标签获取
Element e = elements.get(
0
);
// 因为我知道只有一个p
System.out.println(e.text());
// 打印 from www.javacui.com
}
catch
(Exception e) {
e.printStackTrace();
}
}
}
来自网络
你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据。
1
2
Document doc = Jsoup.connect(
"http://www.javacui.com/"
).get();
String title = doc.title();
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
Connection 接口还提供一个方法链来解决特殊请求,具体如下:
1
2
3
4
5
6
Document doc = Jsoup.connect(
"http://example.com"
)
.data(
"query"
,
"Java"
)
.userAgent(
"Mozilla"
)
.cookie(
"auth"
,
"token"
)
.timeout(
3000
)
.post();
这个方法只支持Web URLs (http和https 协议)。
使用代码参考:http://www.javacui.com/opensource/463.html
参考官网:https://jsoup.org/
0 0
- Jsoup加载HTML的三种方式
- jsoup load HTML document的三种方法
- 三种加载方式
- 类加载的三种方式
- android 加载图片的三种方式
- QTP加载函数库的三种方式
- UIWebView的三种加载方式
- java加载文件的三种方式
- Spring加载配置文件的三种方式
- UIWebView的三种加载方式
- UIWebView的三种加载方式
- UIWebView的三种加载方式
- UIWebView的三种加载方式
- 加载资源文件的三种方式
- UIWebView的三种加载方式
- 三种动态加载的方式。
- Volley加载图片的三种方式
- 加载图片的三种方式使用
- 解决QT designer无法打开问题
- Python学习笔记 --- Pycharm中遇到 no data sources are configured to run thi s sql...
- Kafka入门经典教程
- 求空间中直线与一个平面的交点并判断交点是否在某个三角形区域内部
- HTML网页加载事件
- Jsoup加载HTML的三种方式
- ReactNative入门之props与state
- 课程设计1小学生算法
- StartSSL免费SSL证书申请和账户注册完整过程-最新版本
- Ubuntu下安装并配置FastDFS
- iOS Objective-C -swipe手势
- 学生列表管理
- jquery中解析一个 JSON 字符串
- Java,JavaScript,JScript 区别