ccccccccccccccccccccc

来源:互联网 发布:薛凯琪房祖名 知乎 编辑:程序博客网 时间:2024/06/02 06:43
当我们用ckeditor或其他一些在线文本编辑器的时候 内容里会有很多的标签如下片段:

  <P sizcache09220071460488126="0.0.0"

  sizset="false"><IMG style="WIDTH: 460px; DISPLAY: none;

  HEIGHT: 494px" alt=\ src="" jQuery18003577157966567542="1">

  <IMG title=图片加载中… alt=加载中… src="statics/images/s_nopic.gif"></P>

  <P>生命的旅途,一程有一程的风景,一程有一程的盛放。打开心灵的窗子,

  静看时光旖旎着一曲花开花落,用一种看山是山,看水是水的境界来生活就会快乐,

  人生的最美,便是来自心灵深处的通透与清欢。</P>

  <P>--题记</P>

  <P>喜欢在飘雪的午后,盈一眸恬静,书一抹情怀,看那雪花落入红尘最深处。

  暂离尘世喧嚣,将心灵放空,尽情的体会那份旷达与纯净。生命的旅途中,

  会有不期而遇的欣喜,也会有痛彻心扉的清醒,一地落红,氤氲了冷暖;一树梅开,

  缱绻了浮华,雪如拂尘,能掸去俗世的无奈,也能让灵魂净化。</P>

  包含一些图片,段落,换行等html标签如果要进行统计字数,则就需要去除这些标签。用java正则 如下代码:

  /**

  * 删除Html标签

  *

  * @param inputString

  * @return

  */

  public static String htmlRemoveTag(String inputString) {

  if (inputString == null)

  return null;

  String htmlStr = inputString; // 含html标签的字符串

  String textStr = "";

  java.util.regex.Pattern p_script;

  java.util.regex.Matcher m_script;

  java.util.regex.Pattern p_style;

  java.util.regex.Matcher m_style;

  java.util.regex.Pattern p_html;

  java.util.regex.Matcher m_html;

  try {

  //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>

  String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";

  //定义style的正则表达式{或<STYLE[^>]*?>[\\s\\S]*?<\\/style>

  String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";

  String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式

  p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);

  m_script = p_script.matcher(htmlStr);

  htmlStr = m_script.replaceAll(""); // 过滤script标签

  p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);

  m_style = p_style.matcher(htmlStr);

  htmlStr = m_style.replaceAll(""); // 过滤style标签

  p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);

  m_html = p_html.matcher(htmlStr);

  htmlStr = m_html.replaceAll(""); // 过滤html标签

  textStr = htmlStr;

  } catch (Exception e) {

  e.printStackTrace();

  }

  return textStr;// 返回文本字符串

  }

0 0
原创粉丝点击