Jsoup解析html时对相对地址的处理
来源:互联网 发布:python 股票交易日 编辑:程序博客网 时间:2024/05/16 01:39
前一段时间运用htmlparser时,获取地址是时直接将html页面的相对地址转换成绝对地址,然而今天在运用jsoup,开始的时候发现只能得到相对地址,最后在网上寻找到了解决办法。
htmlparser获得URLs:
//参数说明:parser为模拟浏览器对URL地址操 dataPath:所解析的URL存放路径 dataName:存放URL的数据库名 public static void extractURL(final Parser parser, final String dataPath, final String dataName){ try { NodeVisitor visitor = new NodeVisitor(){//int i = 1;public void visitTag(Tag tag){if(tag instanceof LinkTag){LinkTag link = (LinkTag)tag;String linkString = link.getLink();linkString.trim();String regex = "^(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]" ;boolean isMatch = PatternMatcher.stringMatchRegex(regex, linkString) ;if(isMatch){if(OperatingDB.writerKeyAndValue(dataPath,dataName,linkString,"")){String linkTxt = link.getText();System.out.println(linkString + " " + linkTxt);//System.out.println("插入URL成功!!" );}}}}};parser.visitAllNodesWith(visitor);} catch (ParserException e) {// TODO Auto-generated catch blocke.printStackTrace();} }
Jsoup代码:
Element element = doc.body();//Elements links = element.getElementsByAttributeValue("class", "note");Elements links = element.select("a[href]");//links.removeAll();FileWriter fileWriter = new FileWriter(file, true);for(int i = 0; i < links.size(); i++ ){Element link = links.get(i);System.out.println((link.attr("abs:href") + " "));//这里添加abs后得到的为绝对地址,如果不加所得到的将是相对地址System.out.println((link.text());//得到代替地址的文本}
0 0
- Jsoup解析html时对相对地址的处理
- jsoup对Html的解析
- jsoup对 HTML 文档的解析和操作
- 使用Jsoup对HTML进行解析
- 使用jsoup对html文档进行解析
- jsoup 对 HTML进行解析和操作
- jsoup,html解析的利器
- Jsoup库,HTML的解析
- C#的一个URL加载器,能处理编码、相对地址解析、GET/POST、HTML的include、页面重定向
- Jsoup处理Url与解析Html
- Jsoup解析HTML时特殊标签的解析
- 【Jsoup】URL地址解析
- Java 的HTML 解析器-jsoup
- java-jsoup解析html页面的内容
- java-jsoup解析html页面的内容
- Jsoup解析html的一些使用技巧
- java 解析 html 的利器-->jsoup
- Jsoup 一款Java的HTML解析器
- Linking different libraries for Debug and Release builds in Cmake on windows?
- 十大WordPress安全设置技巧
- IOS UITableView 常用方法及属性
- 中国核潜艇大洋深处与外军对抗 成功避开敌机侦察
- 最短路问题 小结
- Jsoup解析html时对相对地址的处理
- IE6 IE7 IE8 IE9 IE10 Css hack及IE条件注释法
- JNotify使用实例与BUG修复
- 军队建住房报告制度 拒不腾退违规房可强制清退
- 菜鸟调错(五)——jetty运行时无法保存文件
- 再学正则表达式
- 神奇的local--国际化类
- maven创建web项目
- spring 事务管理配置