提取HTML代码中文字的C#函数
来源:互联网 发布:知是心之体,心自然会知 编辑:程序博客网 时间:2024/04/30 06:25
///提取HTML代码中文字的C#函数/// <summary>/// 去除HTML标记/// </summary>/// <param name="strHtml">包括HTML的源码 </param>/// <returns>已经去除后的文字</returns> using System;using System.Text.RegularExpressions;public class StripHTMLTest{public static void Main(){string s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");Console.WriteLine(s);}public static string StripHTML(string strHtml){string [] aryReg ={@"<script[^>]*?>.*?</script>",@"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",@"([/r/n])[/s]+",@"&(quot|#34);",@"&(amp|#38);",@"&(lt|#60);",@"&(gt|#62);",@"&(nbsp|#160);",@"&(iexcl|#161);",@"&(cent|#162);",@"&(pound|#163);",@"&(copy|#169);",@"&#(/d+);",@"-->",@"<!--.*/n"};string [] aryRep = {"","","","/"","&","<",">"," ","/xa1",//chr(161), "/xa2",//chr(162), "/xa3",//chr(163), "/xa9",//chr(169), "","/r/n",""};string newReg =aryReg[0];string strOutput=strHtml;for(int i = 0;i<aryReg.Length;i++){Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase);strOutput = regex.Replace(strOutput,aryRep[i]);}strOutput.Replace("<","");strOutput.Replace(">","");strOutput.Replace("/r/n","");return strOutput;}}
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- [转]提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数(HTML to TEXT)
- 从HTML代码中提取文字,去掉HTML的标记
- C#提取HTML代码中的文字zt
- C#提取HTML代码中的文字
- C#提取HTML代码中的文字
- C#提取HTML代码中的文字
- CET6 作文热身2
- 服务器获得客户端时间的方法
- HSQLDB简介
- ASP 中健壮的页结构的异常处理
- JS操作Xml
- 提取HTML代码中文字的C#函数
- ASP编写完整的一个IP所在地搜索类
- js中取frameset值的问题??谢谢各位老鸟?
- 第三章学习笔记
- 取得AspxGridview中某控件的值(适用RadioButton ,CheckBox)以及在AspGridView取得某一行的方法
- 浅谈C#托管程序中的资源释放问题
- ASP编写完整的一个IP所在地搜索类
- C#的关键字 [STAThread]
- 第一个项目管理