.NET(C#)用正则表达式清除HTML标签(包括script和style),保留纯本文
来源:互联网 发布:淘宝同款图片 编辑:程序博客网 时间:2024/06/07 17:17
如今是互联网时代,随时随刻都在接触网页数据。那么对于.NET的开发人员来说,处理网页源码就是有时候就不能避免了。今天给大家分享.NET用正则表达式清除HTML标签的通用方法。使其保留网页源码中的纯文本,具体方法:
#region 去掉HTML中的所有标签,只留下纯文本 /// <summary> /// 去掉HTML中的所有标签,只留下纯文本 /// </summary> /// <param name="strHtml"></param> /// <returns></returns> public static string CleanHtml(string strHtml) { if (string.IsNullOrEmpty(strHtml)) return strHtml; //删除脚本 //Regex.Replace(strHtml, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase) strHtml = Regex.Replace(strHtml, "(\<script(.+?)\</script\>)|(\<style(.+?)\</style\>)", "", RegexOptions.IgnoreCase | RegexOptions.Singleline); //删除标签 var r = new Regex(@"</?[^>]*>", RegexOptions.IgnoreCase); Match m; for (m = r.Match(strHtml); m.Success; m = m.NextMatch()) { strHtml = strHtml.Replace(m.Groups[0].ToString(), ""); } return strHtml.Trim(); } #endregion
0 0
- .NET(C#)用正则表达式清除HTML标签(包括script和style),保留纯本文
- 正则表达式清除空格和html标签中的 空格
- 正则清除HTML标签但保留其中一部分标签
- 正则清除HTML标签但保留其中一部分标签
- HTML中<script ...>....</script>标签的正则表达式?
- Java过滤任意(script,html,style)标签符,返回纯文本--封装类
- Java过滤任意(script,html,style)标签符,返回纯文本--封装类
- 去掉html中<script>标签的正则表达式
- 知道标签html中的标签,我的取包括标签的标签内的内容使用的正则表达式()
- 正则表达式 清除<>标签样式
- Java 过滤 html、script、style 代码得到纯字符串 方法
- Java 过滤 html、script、style 代码得到纯字符串 方法
- html标签正则表达式
- 清除html标签 asp.net
- 动态创建/增加css style script 用正则表达式 兼容IE firefox
- script (HTML标签),介绍script。
- 用正则表达式抓取制定网页的特定内容(本文以抓取a标签为例)
- Java正则 HTML 标签 得到 纯文本
- R语言解读一元线性回归模型
- 在viewpager中嵌套fragment再嵌套viewpager的事件分发问题解决
- hdu 改革春风吹满地
- C#/.NET连接各类主流数据库(SQL Server,MySQL,Microsoft Access,DB2,Oracle)的连接字符串整理
- C#动态创建及连接ACCESS数据库的详细步骤
- .NET(C#)用正则表达式清除HTML标签(包括script和style),保留纯本文
- 强大的UbuntuBSD 16.04首个Beta版本发布
- ftp 命令行传文件
- linux下的网络配置命令ipconfig命令详解
- AS插件汇总
- ElasticSearch笔记-索引与查询
- vmware sdk使用方法
- 常用封装
- PullToRefreshListView调用onRefreshComplete方法 无法取消刷新的bug