正则表达式提取HTML页面的特定部分
来源:互联网 发布:百度淘宝网购物 编辑:程序博客网 时间:2024/05/29 23:24
从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容。例如,下面是一个显示新闻标题的HTML代码片断:
<table border="0" width="11%" class="Somestory"> |
?观察上述代码,很容易看出新闻标题由位于中间的表格显示,它的class属性设置为Headline。如果HTML页面非常复杂,使用Microsoft IE从5.0开始提供的一项附加功能可以只查看被选中部分页面的HTML代码,请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情。对于本例,我们假定这是唯一class属性设置为Headline的表格。现在我们要创建正则表达式,通过正则表达式找到这个Headline表格并把这个表格包含到自己的页面中。首先是编写支持正则表达式的代码:
<% |
下面考虑一下我们要提取的区域:在这里,我们要提取的是整个<table>结构,包括结束标记和新闻标题的文本。因此查找的起始字符应该是<table>开始标记: re.Pattern = "<table.*(?=Headline)"。这个正则表达式匹配表格的开始标记,能够返回开始标记直至“Headline”之间的所有内容(换行除外)。下面是返回已匹配HTML代码的方法:
' 把所有匹配的HTML代码放入Matches集合 |
运行这段代码处理前面显示的HTML片断,正则表达式返回一次匹配的内容如下: <table border="0" width="11%" class="。正则表达式中的“(?=Headline)”没有获取字符,所以不能看到表格class属性的值。要获取表格剩余部分的代码也相当简单: re.Pattern = "<table.*(?=Headline)(.|/n)*?</table>"。其中:“(.|/n)”后面的“*”匹配0个到多个任意字符;而“?”使得“*”匹配范围最小化,即在找到表达式的下一部分之前匹配尽可能少的字符。</table>是表格的结束标记。
“?”限制符非常重要,它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断,如果删除这个“?”则返回内容将是:
|
返回的内容不仅包含了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。
本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多,特别是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的方法是,多花些时间分析待提取内容附近的HTML,经常地测试,确保提取出来的内容正是自己所需要的。另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。
- 正则表达式提取HTML页面的特定部分
- python提取网页的特定内容(正则表达式实现)
- 正则表达式 提取 html 标签的内容
- 提取html中table的正则表达式
- 正则表达式提取html标签
- 正则表达式提取html内容
- jmeter正则表达式提取器提取特定字符串后的全部内容
- Java正则表达式, 提取双引号中间的部分
- 不同html页面 相同部分代码的提取
- 正则表达式提取HTML中IMG标签的SRC地址
- 文章采集html文档的正文提取正则表达式
- 利用正则表达式提取html中的的Email地址
- 如何使用java的正则表达式提取html标签?
- 正则表达式提取html标签里的内容
- 提取以特定的字符串开头和结尾的正则表达式
- 一个通用的php正则表达式匹配或检测或提取特定字符类
- 一个通用的php正则表达式匹配或检测或提取特定字符类
- Python 正则表达式从CSV文件提取特定列
- 许朝军、王兴反击马化腾:开放才能助我们成功
- 大学生获得服务器赞助参与校内网App大赛
- 闽北四地市市场规划
- 2008-7-31
- 出现“unresolved external symbol @__security_check_cookie@4”的解决方法
- 正则表达式提取HTML页面的特定部分
- 我了解的西安软件外包业务
- 新点子:给驾车人节省时间金钱和减少烦恼
- 在XML、文本文件 中存储图片的解决方案
- 山寨机将成手机电视最大受益者
- 学习的榜样,进步的力量(来自中国人才热线的简历)
- 在window xp下安装Tornado
- Ubuntu8.04如何修改默认文件关联打开程序
- iPower虚拟主机评测