Jsoup 学习笔记
来源:互联网 发布:淘宝店被关闭 编辑:程序博客网 时间:2024/06/04 00:28
今天学习一个Jsoup jar包,做点笔记加强记忆 http://jsoup.org/,主要是翻译这里的
jsoup: Java HTML解析器的主要作用
- scrape and parse HTML from a URL, file, or string 从URL,文件,字符冲中抓取并解析HTML
- find and extract data, using DOM traversal or CSS selectors 查找和提取数据,使用DOM遍历 或者CSS选择器
- manipulate the HTML elements, attributes, and text 操作HTML元素,属性和文本
- clean user-submitted content against a safe white-list, to preventXSS attacks 清除用户提交的内容,阻止XSS攻击
- output tidy HTML HTML格式化输出
举个例子Jsoup如何查找数据:
Document doc = Jsoup.connect("http://www.baidu.com").get();//取到baidu页面,解析成DOM文件Elements newsHeadlines = doc.select("#span input");//通过elements列表中选中搜索框
通过Jsoup解析出来的DOM文件继承图如下: 该DOM文件包含 Elements 和 TextNodesDocument
继承自Element
继承自Node
.TextNode
继承自Node
.
一个Element 包含很多子 Nodes, 但只有一个父Element.
解析HTML 文件
从String中解析HTML文件
使用静态方法Jsoup.parse(String html)
或者 网页文件Jsoup.parse(String html, String baseUri)
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);
解析HTML中的BODY段部分 使用 Jsoup.parseBodyFragment(String html)
方法
Jsoup.parseBodyFragment(String html)
方法String html = "<div><p>Lorem ipsum.</p>";Document doc = Jsoup.parseBodyFragment(html);Element body = doc.body();
从某个URL中加载
Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title();
从某个文件中加载
File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");使用类似DOM的方法才获取页面元素使用CSS 或JQuery 选择器来获取所有页面元素从DOM文件中获取属性,文本等页面元素
0 0
- jsoup 学习笔记
- Jsoup 学习笔记
- Jsoup 学习笔记
- jsoup 学习笔记
- JSOUP学习笔记
- Jsoup(1.7.3)学习笔记
- Jsoup学习笔记3:Jsoup 解析Html源码实例
- Jsoup学习笔记4:Jsoup 解析Html源码实例
- Android学习笔记:Jsoup解析、截取HTML
- Jsoup学习笔记1:解析字符串
- Jsoup学习笔记10:Saz2Csv解析器
- HTML 解析器---Jsoup学习笔记
- Jsoup学习
- jsoup学习
- Jsoup学习
- jsoup学习
- Jsoup学习
- Jsoup学习
- 2014世界互联网大会互联网领袖高峰对话实录
- linux备份还原(3)
- 2014-11-26QQ技巧
- OpenWrt系统安全改进<一>
- 设置UIBarButtonItem之间的距离【利用UIToolbar和UINavigationBar的关系】
- Jsoup 学习笔记
- Linux 命令——xargs 详解
- [JAVA][HDU 1236][九度 1014][排名]
- Object-c note 1:构造函数学习 (Construction Method)
- 《30天自制操作系统》学习笔记——第1-3天
- 二叉树的建立、遍历、打印
- hdu 4745 Two Rabbits 最长回文子序列
- 如何在mybatis SQL查询中使用IN
- 1019:石头剪子布