正则-匹配超链接地址及内容
来源:互联网 发布:mac的软件强制退出不了 编辑:程序博客网 时间:2024/06/08 15:20
正则-匹配超链接地址及内容
今天做文章抓取程序的完善开发,碰到了以下问题
“<a href=aaa.html>A页</a><a href=bbb.html>B页</b>” 利用正则从中分别取出 aaa.html ,A页 ,bbb.html,B页。
1 MatchCollection mc = Regex.Matches(htmlstring, @"<a\s+href=(?<url>.+?)>(?<content>.+?)</a>");
2 foreach (Match m in mc)
3 {
4 url = m.Groups["url"].Value;
5
6 content = m.Groups["content"].Value;
7 }
其中htmlstring 为输入代码
2.
正则表达式匹配超链接的
有如下文本:
<a href="/sort/172_1.htm">系统相关</a> | &nbsp;<a href="/sort/173_1.htm">软件教程</a> | &nbsp;<a href="/sort/174_1.htm">程序设计</a> | &nbsp;<a href="/sort/175_1.htm">网络编程</a> | &nbsp;<a href="/sort/176_1.htm">图形图像</a> | &nbsp;<a href="/sort/177_1.htm">数据库类</a> | &nbsp;<a href="/sort/178_1.htm">网络安全</a>
想要匹配出其中的URL,但是使用如下的正则表达式:
(?<URL><a\s*href=".*">.*</a>)
但是它把整行一起匹配成了一条结果,如何能够让其把那几个A标签都匹配出来呢?
------解决方案--------------------
(?is)(?<URL><a\s*href="[^"]*"[^>]*>.*?</a>)
------解决方案--------------------
------解决方案--------------------
(?is)(?<URL><a[^>]*?>.*?</a>)
“<a href=aaa.html>A页</a><a href=bbb.html>B页</b>” 利用正则从中分别取出 aaa.html ,A页 ,bbb.html,B页。
1 MatchCollection mc = Regex.Matches(htmlstring, @"<a\s+href=(?<url>.+?)>(?<content>.+?)</a>");
2 foreach (Match m in mc)
3 {
4 url = m.Groups["url"].Value;
5
6 content = m.Groups["content"].Value;
7 }
其中htmlstring 为输入代码
2.
正则表达式匹配超链接的
有如下文本:
<a href="/sort/172_1.htm">系统相关</a> | &nbsp;<a href="/sort/173_1.htm">软件教程</a> | &nbsp;<a href="/sort/174_1.htm">程序设计</a> | &nbsp;<a href="/sort/175_1.htm">网络编程</a> | &nbsp;<a href="/sort/176_1.htm">图形图像</a> | &nbsp;<a href="/sort/177_1.htm">数据库类</a> | &nbsp;<a href="/sort/178_1.htm">网络安全</a>
想要匹配出其中的URL,但是使用如下的正则表达式:
(?<URL><a\s*href=".*">.*</a>)
但是它把整行一起匹配成了一条结果,如何能够让其把那几个A标签都匹配出来呢?
------解决方案--------------------
(?is)(?<URL><a\s*href="[^"]*"[^>]*>.*?</a>)
------解决方案--------------------
------解决方案--------------------
(?is)(?<URL><a[^>]*?>.*?</a>)
0 0
- 正则-匹配超链接地址及内容
- java获取url内容及正则匹配链接图片地址
- 正则匹配超链接
- 超链接的正则表达式匹配
- 正则表达式匹配超链接解决方案
- notepad++正则匹配及匹配内容的保留与处理
- c#正则匹配指定地址指定div内容
- 正则匹配ip地址端口号 及路径
- 正则表达式之匹配超链接介绍
- C# 正则表达式匹配多层嵌套的括号里面的内容 百度api逆地址解析
- 正则表达式匹配HTML内容
- IPv4 地址匹配 正则表达式
- 正则表达式匹配ip地址
- 正则表达式匹配IP地址
- JAVA正则匹配 IP地址
- IP地址正则匹配解析
- objective-c 正则表达式 -NSRegularExpression 提取匹配内容
- 正则表达式应用:匹配一个匹配内容外的内容
- SWFUpload.js
- DirectX11 获得纹理描述
- 第3章 MFC原理介绍
- phpstorm + xdebug 远程断点调试,详解
- Android入门:通过XML数据与服务器进行通信
- 正则-匹配超链接地址及内容
- Android几行代码实现双击back键退出程序
- 君子务本,本立而道生!
- Windows2008RC2 IIS配置php运行环境
- iOS企业帐号对ipa重新签名流程
- win32 hook相关模式
- C#中数组的使用
- Qt数据库:(七)QSqlRelationalTableModel
- PAT (Basic Level) Practise (中文)1004. 成绩排名 (20) C语言