提取HTML代码中文字的C#函数
来源:互联网 发布:中国网络菜市场北方1号 编辑:程序博客网 时间:2024/04/30 02:34
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@"<script[^>]*?>.*?</script>",
@"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
@"([/r/n])[/s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(/d+);",
@"-->",
@"<!--.*/n"
};
string [] aryRep = {
"",
"",
"",
"/"",
"&",
"<",
">",
" ",
"/xa1",//chr(161),
"/xa2",//chr(162),
"/xa3",//chr(163),
"/xa9",//chr(169),
"",
"/r/n",
""
};
string newReg =aryReg[0];
string strOutput=strHtml;
for(int i = 0;i<aryReg.Length;i++)
{
Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
strOutput = regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("/r/n","");
return strOutput;
}
转自:http://goaler.xicp.net/ShowLog.asp?ID=477
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- [转]提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数(HTML to TEXT)
- 从HTML代码中提取文字,去掉HTML的标记
- C#提取HTML代码中的文字zt
- C#提取HTML代码中的文字
- C#提取HTML代码中的文字
- C#提取HTML代码中的文字
- 公理面前,据理力争
- Ms XmlDom 异步装载Xml文件
- 张网捕鸟--提携人才的秘诀
- ASP控制虚拟主机函数ADSI
- 对付黑暗一定要杀伐果决
- 提取HTML代码中文字的C#函数
- ASP 类 Class入门
- 制作最清晰缩略图的完整类(VB.NET版)
- 第一次正规面试
- 关于ATL自动生成的事件激发函数Fire_XXX(...)的代码说明
- 将一整数序列按奇数在前,偶数在后的顺序重新排放,并要求奇偶两部分分别有序。
- 城市的地下空间
- Beginning C# Objects翻译缘起
- 要放假了,今天刘主任大喜