文章采集与网址抓取-正则表达式
来源:互联网 发布:centos删除指令 编辑:程序博客网 时间:2024/05/17 18:46
文章采集与网址抓取-正则表达式
1、列表页面地址的填写:
[page]变量代表页码,page数字
2、文章链接的抓取:
href链接网址部分用(.*?)代替
3、文章标题和正文的抓取:
文章标题:一般用(.*?)代替 意思:匹配所有字符(不包括换行符),直到碰到他后面的字符串。
正文: 一般用([\s\S]*?)代替 意思:匹配所有字符(包括换行的)
加了括号的正则表达式,表示参数要提取出来使用。
如果源代码里标题在前,就选标题在前;如果标题在后,就选标题在后。
这里只允许2个加括弧的正则表达式,其它部分也可存在正则表达式,但是不需要提取出来使用,也就不能加括弧了。
标题和正文中间,一般可能存在很多无关代码内容,统一用[\s\S]*,不加括号。无关代码统一用[\s\S]*代替。
原文地址:http://www.seo37.com/934.html
- 文章采集与网址抓取-正则表达式
- java采集网址正则表达式练习一
- 网站采集 url网址正则表达式
- 网站采集 url网址正则表达式
- java采集网址正则表达式(源代码)
- 文章采集html文档的正文提取正则表达式
- asp.net+正则表达式抓取QQ空间文章
- 正则表达式抓取eamil
- 正则抓取html表达式
- 正则表达式的网址
- 正则表达式网址集锦
- 正则表达式学习网址
- URL网址正则表达式
- 正则表达式学习网址
- 网址正则表达式
- 正则表达式 教程网址
- 正则表达式相关网址
- 正则表达式-替换网址
- 单例模式与垃圾回收
- VC 6 调试调试子进程
- 银行结算业务
- 产检假
- JSTL学习笔记
- 文章采集与网址抓取-正则表达式
- 风的世界里有海的七滴泪水
- WebRTC将如何影响当前的移动互联网?
- 单件模式声明
- redis学习笔记之数据类型
- 详细解释:nginx中gzip的各项配置以及配置参数的意思详解
- 中标麒麟杯国产基础软件精英大赛颁奖典礼
- .Net Micro Framework导航总贴(新手必看)
- 如何在PostgreSQL中备份和恢复一张表(包含表结构)