Jsoup-简单优雅的HTML dom解析工具
来源:互联网 发布:四川大学自考网络班 编辑:程序博客网 时间:2024/06/05 01:14
最近在做一个项目,需要在线从官网上下载选手的图片、名称信息,即做一个简易的网络爬虫,实时抓取最新官网选手数据。在网上搜了很多开源工具,一开始试的是webharvest,搞了一个上午,终于被其奇怪的配置文件搞怕了,我就是想链接下载一个在线的HTML页面,然后解析其DOM元素,没有更好的工具吗?
终于,在google上找到了Jsoup,其官网(http://jsoup.org/)上的demo神奇的只有两句话
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn ba");
你没看错,他可以直接根据你给的链接返回dom,并像jquery那样按照元素类型、ID、CSS样式过滤你要找的dom元素,所有返回的元素都放在Elements中,每个Elements中的元素也可包含子元素,层级清晰。
为什么用Jsoup:
1-没有依赖包,是的,你只要下载(http://jsoup.org/download)jsoup包,放在lib引用中,或者你的团队用Maven,在pom文件中加入如下依赖
<dependency> <!-- jsoup HTML parser library @ http://jsoup.org/ --> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.2</version></dependency>
2-语法简单,如果你用过CSS,抑或Jquery,或者在web前端操作过DOM,恭喜你,你会爱上Jsoup。
下面给出代码,大概逻辑是在线下载2013快乐男生66强资料,并显示他们的名称,图片链接地址。
public static void main(String[]args) throwsFileNotFoundException{
try {
Documentdocument = Jsoup.connect("http://www.hunantv.com/v/2013/2013superboy/xs/").get();
Elementselements = document.select(".LD-A");
StringnameString = "(";
String[]names= new String[20];
intj =0;
for(int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
Elements ss = element.getElementsByTag("h4");
Elements img = element.getElementsByTag("img");
String textString = ss.get(0).text();
if(!(textString.indexOf("强")>=0&& textString.indexOf("十") >=0) &&
!(textString.indexOf("强")>=0&& textString.indexOf("1") >=0)
){
StringplayerName = textString;
StringimgUrl = img.attr("src").toString();
imgUrl= "/activity/images/superboy/" + PinYinTest.getPinyin(playerName)+".jpg";
System.err.println("('"+playerName +"','"+ imgUrl +"',1,''),");
}
}
}catch (IOException e) {
//TODO Auto-generated catch block
e.printStackTrace();
}
}
- Jsoup-简单优雅的HTML dom解析工具
- jsoup解析HTML DOM
- html解析工具。jsoup。
- 利用Jsoup进行简单的HTML解析
- jsoup工具去解析html
- html解析工具jsoup结合模版引擎FreeMarkers的简单实例
- 使用jsoup解析HTML之jsoup和HTML DOM简介
- 使用jsoup解析HTML之jsoup和HTML DOM简介
- jsoup解析html简单总结
- 一个好用的解析html工具--jsoup
- Jsoup—解析HTML页面数据的工具
- html&xml解析之jsoup和domj4的简单使用
- Jsoup解析HTML获取数据的简单实例
- 通过jsoup工具实现java解析html
- jsoup对Html的解析
- jsoup,html解析的利器
- Jsoup库,HTML的解析
- 使用Jsoup简单解析HTML文件示例
- 搭建Mac下cocos2d-x的Android开发环境中遇到的问题
- 按位与,按位或,按位异或,按位取反
- oracle查看表空间以及对应数据文件
- socket INADDR_ANY 监听0.0.0.0地址 socket只绑定端口让路由表决定传到哪个ip
- AGG绘图库编译方法
- Jsoup-简单优雅的HTML dom解析工具
- UDP boost::asio的实现
- /proc/kallsyms
- ubuntu 配制 eclipse PHP 开发环境
- iPhone delegate 两界面传递数据(转)
- 分水岭 转android了 以后一周一篇技术分享 坚持 你是做棒的 fighting
- 题目1088:剩下的树
- poj 2828
- 让每个的人的perlchat跑起来