java中利用正则去除html标签

来源:互联网 发布:行业大盘数据分析 编辑:程序博客网 时间:2024/06/08 07:55

java用正则去除html标签

[java] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. package com.xz.cxzy.utils;  
  2.   
  3. import java.util.regex.Matcher;  
  4. import java.util.regex.Pattern;  
  5.   
  6. public class HtmlUtil {  
  7.     private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"// 定义script的正则表达式  
  8.     private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"// 定义style的正则表达式  
  9.     private static final String regEx_html = "<[^>]+>"// 定义HTML标签的正则表达式  
  10.     private static final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符  
  11.       
  12.     /** 
  13.      * @param htmlStr 
  14.      * @return 
  15.      *  删除Html标签 
  16.      */  
  17.     public static String delHTMLTag(String htmlStr) {  
  18.         Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);  
  19.         Matcher m_script = p_script.matcher(htmlStr);  
  20.         htmlStr = m_script.replaceAll(""); // 过滤script标签  
  21.   
  22.         Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);  
  23.         Matcher m_style = p_style.matcher(htmlStr);  
  24.         htmlStr = m_style.replaceAll(""); // 过滤style标签  
  25.   
  26.         Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  
  27.         Matcher m_html = p_html.matcher(htmlStr);  
  28.         htmlStr = m_html.replaceAll(""); // 过滤html标签  
  29.   
  30.         Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);  
  31.         Matcher m_space = p_space.matcher(htmlStr);  
  32.         htmlStr = m_space.replaceAll(""); // 过滤空格回车标签  
  33.         return htmlStr.trim(); // 返回文本字符串  
  34.     }  
  35.       
  36.     public static String getTextFromHtml(String htmlStr){  
  37.         htmlStr = delHTMLTag(htmlStr);  
  38.         htmlStr = htmlStr.replaceAll("&nbsp;""");  
  39.         htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);  
  40.         return htmlStr;  
  41.     }  
  42.       
  43.     public static void main(String[] args) {  
  44.         String str = "<div style='text-align:center;'> 整治“四风”   清弊除垢<br/><span style='font-size:14px;'> </span><span style='font-size:18px;'>公司召开党的群众路线教育实践活动动员大会</span><br/></div>";  
  45.         System.out.println(getTextFromHtml(str));  
  46.     }  
  47. }  

注:\n 回车(\u000a)
\t 水平制表符(\u0009)
\s 空格(\u0008)
\r 换行(\u000d)*/
0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 蘑菇街手机丢了怎么办 黑衣服上全是白毛毛怎么办 支付宝注销了钱怎么办 网上买东西手机号写错了怎么办 二类工资卡过万怎么办 淘宝发货地址写错怎么办 淘宝发货地址写错了怎么办 淘宝不能代付了怎么办 支付宝付款码被盗刷怎么办 地方选举追究不到相关责任人怎么办 天正建筑画个直线找不到怎么办 Wi-Fi模块不支持多播怎么办? 魅族手机屏幕点不动怎么办 uc打开网页很慢怎么办 京东手机号码无法登录怎么办 织梦系统网站没收录怎么办 电脑开机出现一堆乱码怎么办 电脑文件夹出现乱码打不开怎么办 电脑出现f1和f2怎么办 电脑中韩文内容显示乱码怎么办 入驻shopee没身份证怎么办 液相色谱柱柱压降低怎么办 c18色谱柱堵了怎么办 色谱柱进空气了怎么办 宫颈评分只有3分怎么办 淘宝鞋子售后退货商家拒收怎么办 退货申通cp原因怎么办 运费险赔的少怎么办 淘宝卖游戏账号恶意退款怎么办 淘宝账号体检虚拟违规怎么办 京东虚拟单被骗怎么办 网络公选课挂科怎么办 淘宝评论被商家关闭怎么办? 皇冠车钥匙丢了怎么办 皇冠行李箱钥匙丢了怎么办 淘宝主推产品扣两分怎么办 淘宝直通车宝贝排查下架怎么办 滴滴车龄超过8年怎么办 购物车超120了怎么办 没发货申请退款卖家不处理怎么办 淘宝卖家帐号被骗了怎么办