C# 取出HTML里面的文字
来源:互联网 发布:linux怎么装ntfs 编辑:程序博客网 时间:2024/05/16 01:44
public static string StripHTML(string strHtml) { string[] aryReg ={ @"<script[^>]*?>.*?</script>", @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>", @"([\r\n])[\s]+", @"&(quot|#34);", @"&(amp|#38);", @"&(lt|#60);", @"&(gt|#62);", @"&(nbsp|#160);", @"&(iexcl|#161);", @"&(cent|#162);", @"&(pound|#163);", @"&(copy|#169);", @"&#(\d+);", @"-->", @"<!--.*\n" }; string[] aryRep = { "", "", "", "\"", "&", "<", ">", " ", "\xa1",//chr(161), "\xa2",//chr(162), "\xa3",//chr(163), "\xa9",//chr(169), "", "\r\n", "" }; string newReg = aryReg[0]; string strOutput = strHtml; for (int i = 0; i < aryReg.Length; i++) { Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase); strOutput = regex.Replace(strOutput, aryRep[i]); } strOutput.Replace("<", ""); strOutput.Replace(">", ""); strOutput.Replace("\r\n", ""); return strOutput; }
阅读全文
0 0
- C# 取出HTML里面的文字
- 用ASP取出HTML里面的图片地址的函数
- 用ASP取出HTML里面的图片地址的函数
- 如何从response里面取出向客户端输出的html流-代理模式实现
- 取出html代码中的一段文字 去除html标签
- 如何把html里面带有链接的文字导入excel 实现文字与链接分离
- 从Set里面取出有序的记录
- 从Set里面取出有序的记录
- 从Set里面取出有序的记录
- 取出大文件里面的一部分数据
- 从Set里面取出有序的记录
- 取出大文件里面的一部分数据
- 取出list里面某个字段的值
- C# 正则根据ID取出HTML Strng中Value的值
- 去除文字里的html标签的C#方法
- 提取HTML代码中文字的C#函数
- 提取HTML代码中文字的C#函数
- [转]提取HTML代码中文字的C#函数
- fork()创建子进程步骤、函数用法及常见考点(内附fork()过程图)
- Android studio中查看SHA1
- Android之Viewpager+Fragment实现懒加载
- 对于自学新知识自己的套路
- java新手上路(二):奥特曼打怪兽
- C# 取出HTML里面的文字
- Unity shader学习笔记 (四) 分解Shader
- Git的学习记录
- web 事件总结
- 使用FFMPEG解码和OpenAL播放音乐
- git fetch 和git pull
- android SpannableString常用效果
- 【luogu1026】统计单词个数(dp)
- FCN用自己的数据训练1