程序博客网 > 网络的使用界限

利用Jsoup解析HTML

来源：互联网发布：网络的使用界限编辑：程序博客网时间：2024/05/01 09:14

http://passover.blog.51cto.com/2431658/484673

最近又要做html内容抽取，这次打算尝试一下除了用正则表达式以外的其他方式。自然第一个想到的就是HtmlParser，结果找到了以后发现最近的更新还是在06年，汗！这个时候很意外的发现了Jsoup，试用了一下感觉相当清爽，推荐一下。

如果你很有兴趣，直接去官方网站看下说明文档，地址是http://jsoup.org/cookbook/。我这里给个小例子，目的是从下文中抽取出标题，大家可以看一下他的类jQuery语法。

<div class="artHead">
<div>
<span class="artType01" style="margin-right: 5px;"><a href="javascript:void(0)">原创</a></span>
<h3 class="artTitle"><a href="/2431658/483361">JAVA程序内存溢出问题的分析</a>
<a href="http://blog.51cto.com/artcommend" target="_blank"><img src="http://blog.51cto.com/image/skin/34/indextj.gif" width="15" height="15" /></a>
</h3>
</div>

这个内容是从我博客首页上摘取的，所以直接打开这个页面进行抽取，测试代码如下：

package jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class ParseTest {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("http://passover.blog.51cto.com/").get();
System.out.println(doc.title());
Elements eles = doc.select("div.artHead");
System.out.println(eles.first().select("h3[class=artTitle]"));
} catch (IOException e) {
e.printStackTrace();
}
}
}

是不是特别简单？！如果网页结构化比较好的话，这么抽取真的非常方便，我试了下，效率也很不错。推荐给有相关需求的朋友，网页解析又多了一个选择，:-)

网络的使用界限

网络的使用界限

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子喉咙咳嗽怎么办孩子喉咙痒咳嗽怎么办喉咙痒咳嗽怎么办晚上厉害一热就咳嗽怎么回事咳嗽吃什么菜一到晚上就咳嗽咳嗽能吃鱼吗咳嗽能吃梨吗感冒咳嗽怎么办咳嗽没有痰干咳咳嗽煲什么汤好咳嗽喝什么汤咳嗽严重怎么办咳嗽能不能吃鱼咳嗽能吃醋吗风寒咳嗽和风热咳嗽的区别咳嗽喉咙痒有什么妙招咳嗽吐血是什么病的症状咳嗽怎么办速效办法咳嗽能吃水果吗咳嗽能吃鸭蛋吗一咳嗽就头疼咳嗽吃什么药好咳嗽喉咙痛怎么办怀孕咳嗽怎么办鸡咳嗽吃什么药咳嗽睡不着小窍门咳嗽喝酒会怎么样咳嗽挂什么科咳嗽呕吐是什么原因缓解咳嗽的方法嗓子干痒咳嗽怎么办喉咙痒咳嗽吃什么药早上咳嗽是什么原因咳嗽很厉害怎么办咳嗽用英语怎么说连续咳嗽不停怎么办咳嗽吃什么食物嗓子干痒咳嗽小妙招咳嗽图片搞怪小孩咳嗽吃什么好