正则表达式抓取网页资源
来源:互联网 发布:windows vim编辑器 编辑:程序博客网 时间:2024/05/16 23:37
分享一个工具类,用户抓取网页上的图片、js、css等路径
传入
package lab2;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/** * * 项目名称:lab * 类名称:Snippet * 类描述:TODO 根据html源码中的资源路径 * 创建人: yy * 创建时间:2016年11月30日 下午5:26:38 * @version */ public class Snippet { /** * @Title: getSrc * @Description: TODO 获取指定标签的src属性集合 * @date 2016年11月30日 * @author yy * @param @param htmlStr 网页源码 * @param @param htmlMark 标签名 eg. img * @param @return 所有指定标签的src属性 * @return List<String> * @throws */public static List<String> getSrc(String htmlStr,String htmlMark){ String ele=""; Pattern p; Matcher m; List<String> res = new ArrayList<String>(); String reg = "<"+htmlMark+".*src\\s*=\\s*(.*?)[^>]*?>"; //img:<img.*src\\s*=\\s*(.*?)[^>]*?> p = Pattern.compile (reg,Pattern.CASE_INSENSITIVE); m = p.matcher(htmlStr); while(m.find()){ ele = ele + "," + m.group(); Matcher mr = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(ele); while(mr.find()){ res.add(mr.group(1)); } } return res; } /** * @Title: getHref * @Description: TODO 获取指定标签的href属性集合 * @date 2016年11月30日 * @author yy * @param @param htmlStr 网页源码 * @param @param htmlMark 标签名 eg. a * @param @return 所有指定标签的href属性 * @return List<String> * @throws */public static List<String> getHref(String htmlStr,String htmlMark){ String ele=""; Pattern p; Matcher m; List<String> res = new ArrayList<String>(); String reg = "<"+htmlMark+".*href\\s*=\\s*(.*?)[^>]*?>"; //img:<img.*src\\s*=\\s*(.*?)[^>]*?> p = Pattern.compile (reg,Pattern.CASE_INSENSITIVE); m = p.matcher(htmlStr); while(m.find()){ ele = ele + "," + m.group(); Matcher mr = Pattern.compile("href\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(ele); while(mr.find()){ res.add(mr.group(1)); } } return res; } }
0 0
- 正则表达式抓取网页资源
- 正则表达式 抓取网页面上所有图片
- ObjC利用正则表达式抓取网页内容
- 正则表达式,抓取网页所有图片
- 正则表达式抓取网页中的邮箱地址
- java正则表达式抓取网页图片
- PHP 正则表达式抓取网页内容。
- 抓取网页信息,并用正则表达式分析后得到信息。
- java正则表达式匹配网页email(email抓取)
- 网页抓取[截取字段][正则表达式方法]C#写法解决
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- Java正则表达式(一)、抓取网页email地址实例
- Java正则表达式,抓取网页email地址实例
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- JAVA语言用正则表达式抓取网页中的email
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- php curl与正则表达式抓取网页数据的例子
- 【iOS】正则表达式抓取网页数据制作小词典
- SQLlite数据库学习与使用
- 第十五章
- C++编写优先队列打印任务
- 【51nod1076】【2条不相交的路径】【图论】【边双连通分量】
- Websocket协议的学习、调研和实现
- 正则表达式抓取网页资源
- 阿里云Ubuntu中的Python版本管理
- POJ - 2002(静态哈希链表找正方形)
- Office 2013 Powerpoint 打开时出现 VBE6EXT.OLB不能被加载
- 一段文本内容中展示网址链接---TTTAttributedLabel链接点击和textView两种方式实现
- 调度器(scheduler(摘自官方文档)
- 二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(二)
- 面试推理题,发挥脑洞,求解
- eclipse或者myeclipse中debug模式下启动慢解决方案