用C#过滤HTML代码的函数。
来源:互联网 发布:数据库bcnf范式 编辑:程序博客网 时间:2024/05/16 01:41
正好有时间所以用C#写了一段正则表达式,作用是删除 Page 里面Code 中的 HTML标签,这在做采集信息,消除其中的HTML很有用处。
以下是引用片段: public string checkStr(string html) { System.Text.RegularExpressions.Regex regex1 = new System.Text.RegularExpressions.Regex(@"<script[/s/S]+</script *>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex2 = new System.Text.RegularExpressions.Regex(@" href *= *[/s/S]*script *:", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex3 = new System.Text.RegularExpressions.Regex(@" no[/s/S]*=", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex4 = new System.Text.RegularExpressions.Regex(@"<iframe[/s/S]+</iframe *>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex5 = new System.Text.RegularExpressions.Regex(@"<frameset[/s/S]+</frameset *>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex6 = new System.Text.RegularExpressions.Regex(@"/<img[^/>]+/>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex7 = new System.Text.RegularExpressions.Regex(@"</p>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex8 = new System.Text.RegularExpressions.Regex(@"<p>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); System.Text.RegularExpressions.Regex regex9 = new System.Text.RegularExpressions.Regex(@"<[^>]*>", System.Text.RegularExpressions.RegexOptions.IgnoreCase); html = regex1.Replace(html, ""); //过滤<script></script>标记 html = regex2.Replace(html, ""); //过滤href=javascript: (<A>) 属性 html = regex3.Replace(html, " _disibledevent="); //过滤其它控件的on...事件 html = regex4.Replace(html, ""); //过滤iframe html = regex5.Replace(html, ""); //过滤frameset html = regex6.Replace(html, ""); //过滤frameset html = regex7.Replace(html, ""); //过滤frameset html = regex8.Replace(html, ""); //过滤frameset html = regex9.Replace(html, ""); html = html.Replace(" ", ""); html = html.Replace("</strong>", ""); html = html.Replace("<strong>", ""); return html; } |
- 用C#过滤HTML代码的函数。
- C#过滤所有HTML代码的函数
- 一个用c#过滤html代码的函数
- 一个用C#过滤HTML代码的函数
- 一个用C#过滤HTML代码的函数
- 一个用C#过滤HTML代码的函数
- [收藏]C#过滤所有HTML代码的函数
- C#过滤HTML代码
- C#过滤HTML代码
- HTML代码过滤函数
- HTML代码过滤函数
- 过滤字符串的Html标记 c#函数
- php下过滤HTML代码的函数
- php 过滤html标签的函数代码
- php下过滤html代码的函数
- C#正则表达式实现Html代码的完全过滤
- PHP 过滤HTML代码空格,回车换行符的函数
- C# 正则过滤html,js,css代码
- 定时关闭页面 定时执行代码的js代码收藏
- js全选 复选框的问题
- SVN库的迁移
- apache 的网页内容显示是乱码
- 一个美国老网络工程师,给年轻工程师的忠告
- 用C#过滤HTML代码的函数。
- VC用ADO访问数据库全攻略
- Indent代码格式化说明
- 1.2 模式不匹配
- Autoruns 9.33 简体中文汉化版
- [SharePoint] Deployment and Programming AJAX server code in SharePoint 2007
- 关于LIS系统与HIS系统的接口方案
- 想成为嵌入式程序员应知道的0x10个基本问题
- 关于限制Firefox3的反钓鱼数据库urlclassifier3.sqlite的大小方法