【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
来源:互联网 发布:gps时间同步软件 编辑:程序博客网 时间:2024/05/21 15:48
原文出自:https://jsoup.org/cookbook/input/parse-body-fragment
需求:
有一个HTML语句片段(例如包含一系列p标签的div节点;HTML文档的一部分而非全部)需要解析,它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。解决方案:
采用方法Jsoup.parseBodyFragment(String html)
//定义HTML语句片段String html = "<div><p>Lorem ipsum.</p>";//获取Document对象Document doc = Jsoup.parseBodyFragment(html);//获取body元素Element body = doc.body();
说明:
方法:parseBodyFragment(html)会创建一个新的Document,并将需解析的html参数插入到body元素中。
若你使用的是常规的Jsoup.parse(String html)方法,你也会得到相同的结果;但是明确地将html参数当作HTML语句片段,能确保
用户提供的html能被解析到body元素内。方法:Document.body()等同于doc.getElementsByTag("body"),返回Document对象的body元素的子元素。
保证安全:
当你接受用户输入的HTML时,你需要小心避免受到cross-site scripting【XSS】攻击。
0 0
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--处理URL链接【十】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- Java 爬虫工具Jsoup解析
- 【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml
- java 爬虫 网页解析(Jsoup)
- 网络爬虫--数据处理,jsoup工具解析html,dom4j解析xml
- Jsoup 解析Html网页
- 通过jsoup工具实现java解析html
- SQL、T-SQL与PL-SQL的区别
- 设计模式六大原则
- mysql插入太多数据导致MySQL server has gone away
- session cookie token 区别
- ASP .NET MVC LINQ
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- D3D中镜子效果的实现
- 题目1453:Greedy Tino
- [RK3288][Android6.0] 调试笔记 --- 修改默认system/bin/下可执行程序权限
- 国科烟雨情
- 文章标题
- leetcode 557. Reverse Words in a String III
- Boost官网地址
- Android okHttp上传单张或多张照片