文章采集与网址抓取-正则表达式

来源:互联网 发布:centos删除指令 编辑:程序博客网 时间:2024/05/17 18:46

 文章采集与网址抓取-正则表达式

  1、列表页面地址的填写:

  [page]变量代表页码,page数字

  2、文章链接的抓取:

  href链接网址部分用(.*?)代替

  3、文章标题和正文的抓取:

  文章标题:一般用(.*?)代替 意思:匹配所有字符(不包括换行符),直到碰到他后面的字符串。

  正文: 一般用([\s\S]*?)代替 意思:匹配所有字符(包括换行的)

  加了括号的正则表达式,表示参数要提取出来使用。

  如果源代码里标题在前,就选标题在前;如果标题在后,就选标题在后。

  这里只允许2个加括弧的正则表达式,其它部分也可存在正则表达式,但是不需要提取出来使用,也就不能加括弧了。

  标题和正文中间,一般可能存在很多无关代码内容,统一用[\s\S]*,不加括号。无关代码统一用[\s\S]*代替。


原文地址:http://www.seo37.com/934.html


原创粉丝点击