正则表达式知识详解之实战 读取网页中超链接 (java版示例)
来源:互联网 发布:己知阴影面积为10dm 编辑:程序博客网 时间:2024/06/05 06:16
正则表达式知识详解系列,通过代码示例来说明正则表达式知识
源代码下载地址:http://download.csdn.net/detail/gnail_oug/9504094
示例功能:
1、根据一个url,获取页面里的所有的超链接
/** * 根据url读取网页内容 * @date 2016-04-27 10:34:13 * @author sgl * @param urlStr * @return */public static String readHtml(String urlStr){StringBuffer sb=new StringBuffer("");BufferedReader br=null;try {URL url=new URL(urlStr);HttpURLConnection conn=(HttpURLConnection)url.openConnection();InputStream in=conn.getInputStream();br=new BufferedReader(new InputStreamReader(in));String line=null;while((line=br.readLine())!=null){sb.append(line);}} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();} finally{if(br!=null){try {br.close();} catch (IOException e) {e.printStackTrace();}}}return sb.toString();}
步骤二、从页面内容中找超链接
/** * 从字符串中找出超链接 * @date 2016-04-27 10:35:27 * @author sgl * @param str * @return */public static List<String>findLink(String str){Pattern p=Pattern.compile("<[Aa]\\s+(.*?\\s+)*?href\\s*=\\s*([\"']).+?\\2\\s*(\\s+.*?\\s*)*?>.+?</[Aa]>");Matcher m=p.matcher(str);List<String>list=new ArrayList<String>();while(m.find()){list.add(m.group());}return list;}
步骤三、获取超链接
public static void main(String[] args) {String htmlTxt=Demo03.readHtml("http://www.csdn.net/");List<String>list=Demo03.findLink(htmlTxt);for(String str:list){System.out.println(str);}System.out.println(list.size());}
运行结果:(中间部分省略了)
<a href="https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn">登录</a><a href="http://passport.csdn.net/account/mobileregister?action=mobileRegister">注册</a><a href="https://passport.csdn.net/help/faq">帮助</a>...<a href="http://www.csdn.net/company/icp.html">电信业务审批[2007]字第380号</a><a href="http://www.csdn.net/company/pifu.html">电信与信息服务业务经营许可证070598号</a><a href="http://www.hd315.gov.cn/beian/view.asp?bianhao=010202001032100010" target="_blank"><img src="http://c.csdnimg.cn/www/images/gongshang_logos.gif" alt="GongshangLogo" alt="' title="" /></a>394
1 0
- 正则表达式知识详解之实战 读取网页中超链接 (java版示例)
- 正则表达式知识详解之实战 获取网页中的邮箱地址 (java版示例)
- 正则表达式知识详解之基础知识 (java版示例)
- 正则表达式知识详解之单词边界 (java版示例)
- 正则表达式知识详解之字符串边界 (java版示例)
- 正则表达式知识详解之分组 (java版示例)
- 正则表达式知识详解之回溯引用 (java版示例)
- 正则表达式知识详解之替换 (java版示例)
- 正则表达式知识详解之子表达式 (java版示例)
- 正则表达式知识详解之多行模式 (java版示例)
- 正则表达式知识详解之贪婪模式和非贪婪模式 (java版示例)
- 正则表达式知识详解之匹配时忽略大小写 (java版示例)
- 正则表达式知识详解之前后查找(环视) (java版示例)
- java正则表达式 超链接识别
- 正则表达式知识详解
- 正则表达式知识详解
- java之正则表达式详解
- Java正则表达式之代码实战
- LateX练习:写一份实验报告
- 关于一些简单的存储过程知识
- 字符串逆序排列
- 第九周项目36-阅读程序,写出执行结果(1)
- (OK) dnf - Fedora23——删除多余不用的内核
- 正则表达式知识详解之实战 读取网页中超链接 (java版示例)
- 育儿
- 服务器禁PING简述
- UIAlertController设置
- ASP.NET MVC 网站开发总结(二)——一个或多个文件的异步或同步上传
- JAVA定时器启动日期
- 用getChildFragmentManager解决Fragment嵌套Fragment数据丢失的问题
- 数组中第k大(或小)的元素(leetcode215)
- 数据库中四种常用的连接语句