匹配html中的A标签

来源:互联网 发布:java应用架构设计 pdf 编辑:程序博客网 时间:2024/05/21 14:53

匹配html中的A标签

<[aA]\s+((\w+\s*=\s*("([^"]*)"|'([^']*)'|([^'">\s]+))\s+)*)(href\s*=\s*("([^"]*)"|'([^']*)'|([^'">\s]+)))((\s+\w+\s*=\s*("([^"]*)"|'([^']*)'|([^'">\s]+)))*)\s*>(.*?)</[aA]\s*>  


替换其中的链接到统计页面再跳转到真正的链接地址

protected void Unnamed1_Click(object sender, EventArgs e)    {        //正则        Regex reg = new Regex("<[aA]\\s+((\\w+\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+))\\s+)*)(href\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+)))((\\s+\\w+\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+)))*)\\s*>(.*?)</[aA]\\s*>");                //输入内容        string matchStr = TextBox1.Text;         //此处可以完成任务(利用委托)        MatchEvaluator myEvaluator = new MatchEvaluator(ReplaceCC);        string aaa = reg.Replace(matchStr, myEvaluator);        //最后结果        Response.Write(aaa);    }//在这里单独处理每一个匹配项,每个括号内的为:匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到。    public string ReplaceCC(Match m)    {        string temp = m.Groups[9].Value + m.Groups[10].Value + m.Groups[11].Value;        string g18 = m.Groups[18].Value;        temp = "http://www.biaodashi.com?projectid=00000&userid=1111111&url=" + temp;        return "<a " + m.Groups[1].Value + " href=\" " + temp + "\" " + m.Groups[12].Value + ">" + g18 + "</><br/>";    }


原文:http://njm.iteye.com/blog/1104498



匹配html中的A标签 以及A标签内的其它标签:

<[aA]\\s+((\\w+\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+))\\s+)*)(href\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+)))((\\s+\\w+\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+)))*)\\s*>\\s*<[\\s\\S]*>\\s*(.*?)\\s*</[\\s\\S]*></[aA]\\s*>

以上正则可这样划分:

// 匹配<a到href之间的内容<[aA]\\s+((\\w+\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+))\\s+)*)// 匹配从href开始到结束的内容(href\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+)))               // 匹配href结束到>之间的的内容    ((\\s+\\w+\\s*=\\s*(\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+)))*)\\s*>       // 匹配>和下一个>之间的内容,这个内容在a标签之内。\\s*<[\\s\\S]*>\\s*                                              // 匹配>之后到下一个</之间的内容,也就a标签显示的内容。       (.*?)                                                  // 匹配</到>之间的内容                 </[\\s\\S]*>\\s*                            // 匹配</aA>                            </[aA]\\s*>       


0 0