正则表达式 去除相应HTML 标记
来源:互联网 发布:java测试类 main方法 编辑:程序博客网 时间:2024/06/06 06:39
将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉:
1.去注释,正则为:
output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase);
2.去script,正则为:
ouput = Regex.Replace(input, @"<script[^>]*?>.*?</script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
output2 = Regex.Replace(ouput , @"<noscript[^>]*?>.*?</noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
3.去style,正则为:
output = Regex.Replace(input, @"<style[^>]*?>.*?</style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
4.去其他HTML标记
result = result.Replace(" ", " ");
result = result.Replace(""", "\"");
result = result.Replace("<", "<");
result = result.Replace(">", ">");
result = result.Replace("&", "&");
result = result.Replace("<br>", "\r\n");
result = Regex.Replace(result, @"<[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase);
以上的代码中大家可以看到,我使用了RegexOptions.Singleline参数,这个参数很重要,他主要是为了让"."(小圆点)可以匹配换行符.如果没有这个参数,大多数情况下,用上面列正则表达式来消除网页HTML标记是无效的.
- 正则表达式 去除相应HTML 标记
- Java 正则表达式去除HTML标记
- 正则 去除html标记
- C# 替换去除HTML标记方法(正则表达式)
- C# .Net使用正则表达式去除HTML标记和空格
- C# 替换去除HTML标记方法(正则表达式)
- 正则表达式彻底去除HTML
- 正则表达式去除html标签
- 正则表达式去除html标签
- asp中正则表达式去除HTML标记(窃自eWebEditor)
- C# 去掉HTML标记的正则表达式
- 正则表达式匹配HTML标签或标记
- 正则表达式获取HTML标记innerHTML
- js过滤(去除)富文本编辑器中的html标签和换行回车等标记的正则表达式
- JS过滤(去除)富文本编辑器中的HTML标签和换行回车等标记的正则表达式
- 利用正则表达式去除HTML标签
- 正则表达式,去除所有HTML标签
- 去除HTML的正则表达式函数
- Linux "could not open default font 'fixed'."错误解决 .
- Linux字符设备与块设备的区别与比较
- 2013蓝桥杯预赛javaA 颠倒的价牌
- CSS学习笔记(五)CSS 类选择器
- nefu697Similar Word(kmp)
- 正则表达式 去除相应HTML 标记
- vmlinuz文件
- 单片机驱动DM9000网卡芯片(详细调试过程)
- x86 IO端口地址
- UVa 10739 - String to Palindrome
- 高薪面试题01—银行业务调度系统
- 优秀电影推荐
- zoj 2838 Utopia
- Java实现基本排序算法