【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
来源:互联网 发布:香港人用什么手机知乎 编辑:程序博客网 时间:2024/06/04 19:10
原文出自https://jsoup.org/cookbook/input/parse-document-from-string
需求:
给定java String格式的HTML字符串,想要对它进行解析,以便获取其内容,或者确保它拥有良好的格式,或者对它进行修改。该String可能来自用户输入、文件或者互联网。
解决方案:
采用静态方法Jsoup.parse(String HTML),或者Jsoup.parse(String html, String baseUri)【当网页来自于互联网,并且你想得到该网页的URL时】
//采用Jsoup.parse(String HTML)将字符串解析成DocumentString html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);
说明:
方法:parse(String html, String baseUri)
将输入的HTML字符串解析到新的Document。
参数baseUri用来完成相对url与绝对url之间的转换,应将其设为文档的源路径。当baseUri无法使用,或者该HTML有确切的base Element【父级Element】,建议使用方法:parse(String html)。
当你传入非空的String参数,可以确保你成功获得正确的Document解析结果,至少包含一个head及body-Element对象。(若出现Exception,或错误的解析tree【Document解析后是类似tree的对象】,请提交bug)。
一旦你有一个文档,你可以调用合适的方法来获取不同元素和节点的数据。
0 0
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【Java Utility】Jsoup网页爬虫工具--处理URL链接【十】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- Java 爬虫工具Jsoup解析
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- java 爬虫 网页解析(Jsoup)
- 使用java开源工具jsoup抓取解析网页数据
- 【爬虫系列】第二部分 网页解析Jsoup
- java 网页解析工具包 Jsoup
- java 网页解析工具包 Jsoup
- root用户下,使用git pull文件时候,文件权限强制自动变更
- 公钥 私钥 概念定义详解
- Thanksgiving Day
- javascript定义变量时有var和没有var的区别探讨
- lnmp与nginx-rtmp-module搭建视频直播,感受一下流媒体服务器
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- DS31256 HDLC控制器的配置步骤—配置模式
- 奇异值分解及几何意义
- React Native Android 为apk签名
- linux 下java环境配置
- SVN状态标识缩写
- 关于 html2canvas screenoff 显示不全的问题
- 文章标题
- 远程登录与远程控制