jsoup介绍

来源:互联网 发布:阿里云 电话归属地 编辑:程序博客网 时间:2024/06/11 03:54


jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。


// 直接从字符串中输入HTML 文档
String html = "<html><head><title>开源中国社区</title></head>"
+"<body><p>这里是jsoup 项目的相关文章</p></body></html>";

Document doc = Jsoup.parse(html);


解析并提取HTML 元素

jsoup也提供了传统的DOM 方式的元素解析,看看下面的代码:
File input = new File("D:/test.html");
Document doc = Jsoup.parse(input, "UTF-8","网址/");
Element content =doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
     String linkHref =link.attr("href");
     String linkText =link.text();
}


而在元素检索方面,jsoup 的选择器简直无所不能,
File input = new File("D:\test.html");
Document doc =Jsoup.parse(input,"UTF-8","网址");
Elements links = doc.select("a[href]"); // 具有href 属性的链接
Elements pngs = doc.select("img[src$=.png]");//所有引用png图片的元素
Element masthead =doc.select("div.masthead").first();



0 0