/*模拟爬虫*/----------exec
来源:互联网 发布:手机淘宝如何开通花呗 编辑:程序博客网 时间:2024/06/06 04:01
/*模拟爬虫*/
var html='<link rel="stylesheet" href="index.css"/><h1>标题一</h1><a class="curr" href="http://tmooc.cn">go to tmooc</a><a name="top"></a><span>不能为空</span><a href="http://tedu.cn" target="_blank">go to tedu</a><div>panel</div>';
var reg=/<a\s+([^>]*?)href=['"](.*?)['"](.*?)>(.*?)<\/a>/ig;
var arr=null;//接住本次找到的a元素
var urls=[];//保存本次找到的a
//先调用reg的exec查找HTML中的a,将结果保存在arr中,再和null比较
while((arr=reg.exec(html))!=null){
//将本次找到的a的第二个分组对应的内容,压入urls
urls.push(RegExp.$2);
}
var html='<link rel="stylesheet" href="index.css"/><h1>标题一</h1><a class="curr" href="http://tmooc.cn">go to tmooc</a><a name="top"></a><span>不能为空</span><a href="http://tedu.cn" target="_blank">go to tedu</a><div>panel</div>';
var reg=/<a\s+([^>]*?)href=['"](.*?)['"](.*?)>(.*?)<\/a>/ig;
var arr=null;//接住本次找到的a元素
var urls=[];//保存本次找到的a
//先调用reg的exec查找HTML中的a,将结果保存在arr中,再和null比较
while((arr=reg.exec(html))!=null){
//将本次找到的a的第二个分组对应的内容,压入urls
urls.push(RegExp.$2);
}
console.log(urls.join("\n"));
['"]:双引号或单引号
. :单独一个点是除换行符以外的所有字符
.* :大白话说就是无限制的字符
?就是截止的意思
<\/a>/ig; :因为有2个/,所以在/前面加\就OK了。
正则表达式:/内容/
\s :空格
0 0
- /*模拟爬虫*/----------exec
- scrapy模拟表单爬虫
- python爬虫 模拟登陆
- 爬虫模拟请求
- 爬虫模拟请求
- Python爬虫 模拟登录
- 爬虫+模拟登录
- python模拟爬虫
- scrapy模拟表单爬虫
- Python 爬虫模拟登陆
- 爬虫-05-模拟登陆
- python 爬虫模拟登陆
- Python3爬虫登录模拟
- php模拟登陆,网络爬虫
- python爬虫之手机模拟
- 《python爬虫实战》:模拟登陆
- 谈谈爬虫-模拟登录思路
- HTMLUnit爬虫模拟登录Linkedin
- POJ-1639 Picnic Planning (最小度限制生成树)(模板题)
- 左旋转字符串
- iframe中跨域cookie丢失问题java解决
- 不用加减乘除做加法
- STL笔记(5)——空间配置器Allocator(三)
- /*模拟爬虫*/----------exec
- php curl (get post)
- 分页置换算法
- php之跳转
- centos 7 下 yum -y install ntp 出现/var/run/yum.pid 已被锁定,PID 为 4054 的另一个程序正在运行。
- 判断是否是顺子
- 开通博客第二天
- php架构学习-传统三层架构
- leetcode:Add Binary 【Java】