Jsoup解析文件
来源:互联网 发布:理科生禅师对话知乎 编辑:程序博客网 时间:2024/05/19 13:42
- Jsoup解析文件
- JSoup库是什么
- 使用DOM方法来遍历一个文档
- Demo
Jsoup解析文件
JSoup库是什么
Jsoup是一个开源的Java库,它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改,充分利用了DOM,CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范,它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的特性:
- Jsoup可以从URL,文件,或者字符串中获取并解析HTML。
- Jsoup可以查找并提取数据,可以使用DOM遍历或者CSS选择器。
- 你可以使用Jsoup来修改HTML元素,属性以及文本。
- Jsoup通过一个安全的白名单确保了用户提交的内容是干净的,以防止XSS攻击。
- Jsoup还能输出整洁的HTML。
Jsoup下载网址
使用前需要将jsoup的jar包build path到项目中。jsoup可以从包括字符串、URL地址、以及本地文件来加载HTML文档,并生成Document对象实例。三种解析方式如下:
1. 解析HTML格式的字符串
Document doc = Jsoup.parse(“html格式的字符串”);
- 解析URL指向的页面
Document doc = Jsoup.connect(url).get();
- 解析本地HTML文档
File input = new File(“D:/test.html”);
Document doc = Jsoup.parse(input,”UTF-8”,”http://www.csdn.net/“);
login.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> <title>Login Page</title> </head> <body> <div id="login" class="simple" > <form action="login.do"> Username : <input id="username" type="text" /><br> Password : <input id="password" type="password" /><br> <input id="submit" type="submit" /> <input id="reset" type="reset" /> </form> </div> </body> </html>
利兹
public class HTMLParser { public static void main(String args[]){ /** * 直接解析了一个内容为HTML的字符串 * */ String HTMLSTring = "<!DOCTYPE html>" + "<html>" + "<head>" + "<title>JSoup Example</title>" + "</head>" + "<body>" + "<table><tr><td><h1>Hello world</h1></tr>" + "</table>" + "</body>" + "</html>"; Document html = Jsoup.parse(HTMLSTring); String title = html.title(); String h1 = html.body().getElementsByTag("h1").text(); System.out.println("Input HTML String to Jsoup:" + HTMLSTring); System.out.println("Title :" + title); System.out.println("Heading :" + h1); /** * 解析了一个从URL中下载的HTML文件,第三个中我们从本地文件系统中加载了一个HTML文档并进行解析 * */ Document htmlFile = null; try { htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1"); } catch (Exception e) { e.printStackTrace(); } title = htmlFile.title(); Element div =htmlFile.getElementById("login"); String cssClass = div.className(); System.out.println("Jsoup can also parse HTML file directly"); System.out.println("title : " + title); System.out.println("class of div tag : " + cssClass); /** * 解析了一个从URL中下载的HTML文件 * */ Document doc; try { doc = Jsoup.connect("http://www.csdn.net/").get(); title = doc.title(); } catch (Exception e) { e.printStackTrace(); } System.out.println("Jsoup Can read HTML page from URL, title : " + title); }}
使用DOM方法来遍历一个文档
将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:
File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Element content = doc.getElementById("content");Elements links = content.getElementsByTag("a");for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text();}
说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
查找元素
- getElementById(String id)
- getElementsByTag(String tag)
- getElementsByClass(String className)
- getElementsByAttribute(String key) (and related methods)
- Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
- Graph: parent(), children(), child(int index)
元素数据
- attr(String key)获取属性attr(String key, String value)设置属性
- attributes()获取所有属性
id(), className() and classNames()
- text()获取文本内容text(String value) 设置文本内容
- html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
- outerHtml()获取元素外HTML内容
- data()获取数据内容(例如:script和style标签)
- tag() and tagName()
操作HTML和文本
- append(String html), prepend(String html)
- appendText(String text), prependText(String text)
- appendElement(String tagName), prependElement(String tagName)
- html(String value)
Demo
解析果壳网的网站
public class JsoupDemo { public static void main(String[] args) { String url = "http://www.guokr.com/scientific/channel/visual/"; try { Document doc = Jsoup.connect(url).get(); Element masthead = doc.select("div.article-list").first(); Elements titleElements = masthead.select("div.article h3 a"); Elements dateElements = masthead.select("div.article div.article-info"); Elements imgElements = masthead.select("div.article a img"); Elements disElements = masthead.select("div.article p"); int count = titleElements.size(); for (int i = 0; i < count; i++) { Element titleElement = titleElements.get(i); Element dateElement = dateElements.get(i); Element imgElement = imgElements.get(i); Element disElement = disElements.get(i); int location = dateElement.text().indexOf("|"); System.out.println("title :" + titleElement.text()); System.out.println("date :" + dateElement.text().substring(location + 1,dateElement.text().length() - 9)); System.out.println("img :" + imgElement.attr("src")); System.out.println("summary :" + disElement.text()); } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } }}
title :【科学美图】夜空之美 PK 对抗光害·2016年获奖作品
date :2016-06-14
img :http://3.im.guokr.com/tIjJ8_Vv9HVTFKsVMv3PXzagyyB3XbAfQNTkXOq1KoxKAQAAugAAAEpQ.jpg
summary :一年一度的“地球与天空”国际摄影大赛近日公布结果,获奖的10幅绝美天文风光作品中,有3幅出自中国摄影师之手,快来欣赏!
https://github.com/lxxself/getGank
http://www.jianshu.com/p/4fc8e18cc0e2
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2014/1226/2218.html
查找元素,select用法
Jsoup官方文档
使用JSoup解析HTML文件
解析和遍历一个HTML文档
Android网络爬虫程序(基于Jsoup)
抓取csdn上的各类别的文章 (制作csdn app 二)
- Jsoup解析HTML文件
- Jsoup解析文件
- JSOUP 解析XML文件
- 使用Jsoup解析html文件
- 使用JSoup解析HTML文件
- jsoup解析html文件实例
- 利用jsoup解析网页和xml文件
- 使用Jsoup简单解析HTML文件示例
- jsoup解析文件存入本地mongodb数据库
- jsoup解析
- Jsoup学习笔记5:Jsoup 解析SAZ文件中的htm文档源码实例
- 用Jsoup解析HTML文件,并保存到本地
- 用Jsoup解析HTML文件,并保存到本地
- HTML解析器 jsoup
- HTML解析器 jsoup
- jsoup 解析 html 学习
- jsoup解析html
- Jsoup解析HTML Demo
- 33、JavaScript中磁性吸附的实现
- android studio的简单介绍及安装
- Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
- 安装python
- Android消息循环机制
- Jsoup解析文件
- Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】
- iOS多线程之NSThread、NSOperation和GCD
- DOM4J
- VM 安装red hat 5 解决中文显示乱码 和 切换中文输入法
- 图论 Problem K
- java获取cpu、内存、硬盘信息
- 安卓开发:Please ensure that adb is correctly located at……问题解决方案
- 2015前端组件化框架之路