爬虫总结 && 部分正则匹配
来源:互联网 发布:淘宝注册资金 编辑:程序博客网 时间:2024/06/08 04:51
工作流大致是:
首先利用多线程,能过http协议连接对方网站,获取html字符串,可以用java.net包里的工具类或者其它开源包。接着通过正则表达式解析html标记,网上资源很多的可以搜一下也可以用开源包。
这样一个基本的爬虫就实现了,剩下来的问题就是如何防止重复爬取网页,如何防止爬取其它链接资源,还有抓取目录的
可以去google搜索,很多的。 关键字 htmlparser ,httpclient 爬虫层级。
google: baidu:
java html解析器
//匹配url
- //匹配(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$
知道正则表达式中匹配汉字用:
- \u4e00-\u9fa5
知道用\d匹配数字,\w匹配单词,\n换行……,可用什么匹配双引号呢"
正则表达式 双引号
- \u0022
匹配标题:
- <title>([^</title>]*)
对于html代码是:
- <span name="shangcode" id="shangcode">0501010320</span>
正则(反斜杠):
- <span\sname=\u0022shangcode\u0022\sid=\u0022shangcode\u0022>([^</span>]*)
- <span/sname=/u0022shangcode/u0022/sid=/u0022shangcode/u0022>([^</span>]*)
对于html代码是:
- <span class="s2" id="webspan"> 209.00 </span>
正则(反斜杠):
- <span\sclass=\u0022s2\u0022\sid=\u0022webspan\u0022>([^</span>]*)
- <span/sclass=/u0022s2/u0022/sid=/u0022webspan/u0022>([^</span>]*)
对于html代码是:
- <span title="0-1岁">0-1岁</span>
- <span title="6-12个月">6-12个月</span>
正则(反斜杠):
- <span\stitle=\u00220-1\u5c81\u0022>([^</span>]*)
- <span\\stitle=\\u00220-1\\u5c81\\u0022>([^</span>]*)
html代码是:
年龄:</td>
- <p><span style="font-family: Arial, Helvetica, sans-serif;">\u5e74\u9f84\uff1a</td></span></p>
适合年龄:</td><td width="631" bgcolor="#FFFFFF"><span title="0-1岁">
- \u5e74\u9f84[^*]{20,58}([^\u0022>]*)
- \u5e74\u9f84\uff1a</td>[^\s]{20,22}
- \u5e74\u9f84\uff1a</td>[^*]{1,}
对于html代码是:
- <a id="bighref" href="http://www.***.com/images/product/8b/b0/8bb05984b23b470593694b7d4d1da2b5_1_l.jpg"
- class="MagicZoom">
- <a\sid=\u0022bighref\u0022\shref=\u0022([^\u0022]*)
java正则(斜杠):
- <a\\sid=\\u0022bighref\\u0022\\shref=\\u0022([^\\u0022]*)
\u5e74\u9f84\uff1a.*?\u0022([^\u0022>]*)
love.*?you
年龄:50个字符第一个引号,
- \u5e74\u9f84\uff1a[^*]{50,50}.*?\u0022([^\u0022>]*)
- <div class="product-heading">
- <div\sclass=\u0022product-heading\u0022>[^*]{200,200}.*?>([^</>]*)
阅读全文
0 0
- 爬虫总结 && 部分正则匹配
- 爬虫总结 && 部分正则匹配
- sparksql 正则匹配总结
- 正则表达式 部分总结
- python 网页爬虫_正则匹配
- 补发爬虫第一战,正则匹配
- perl 正则模式匹配总结
- 正则表达式匹配符总结
- Java正则表达式的完全匹配与部分匹配
- Java正则表达式的完全匹配与部分匹配
- 正则表达式,oracle部分匹配转java的全部匹配
- JS 正则表达式全匹配和部分匹配
- 正则表达式的完全匹配和部分匹配
- day25正则表达式,匹配,切割,替换。获取。网页爬虫
- 正则表达式,匹配,切割,替换。获取。网页爬虫
- LINUX 网络爬虫中使用正则匹配URL
- 为什么爬虫正则更多的用非贪婪匹配模式?
- python爬虫-豆瓣数据爬取-正则匹配
- angularJs中controller控制器scope父子集作用域实例
- idea2017的获取注册码的方法
- Leetcode 200 Number of Islands
- 1.4 自定义框架
- java进阶(三) 用单例模式加载配置文件
- 爬虫总结 && 部分正则匹配
- phantomjs selenium实现刷搜索引擎,刷百度来路,刷点击,真实有效果
- Java集合HashSet的hashcode方法引起的内存泄漏问题
- windows下python安装numpy模块
- package.json的 ^~
- OD学习笔记
- 卷积算子计算方法(卷积运算)
- JavaWeb 学习笔记(四) ServletContext
- sqlserver 根据表名查询 该表的主键是那些表的外键