java 正则匹配提取html纯文本
来源:互联网 发布:莱恩打碟软件使用说明 编辑:程序博客网 时间:2024/05/17 12:53
本文来自于我的个人博客: java 正则匹配提取html纯文本
做内容的大家都知道,从html中直接提取纯文本是一个很大的问题,现将我做的正则匹配贴上:
import java.util.regex.Matcher;import java.util.regex.Pattern;public class TestReg {static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>";public static void main(String[] args) {// TODO Auto-generated method stubString str = "<p></p><p> 我们以Buffer类开始对java.nio包的浏览历程。"+ "这些类是java.nio的构造基础。这个系列中,我们将跟随《java NIO》书籍一起深入研究缓冲区,"+ "了解各种不同的类型,并学会怎样使用。</p><p> 一个Buffer对象"+ "是固定数量的数据容器。其作用是一个存储器,或者分段运输区,在这里数据可被存储并在之后用于检索。"+ "</p><p> Buffer类的家谱:</p><p> "+ "<img src="http://photo.jfq24.com/image/bigger/blog/server/upload/2014-07/user_2/13711406446068247.png" "+ "title="2014-07-27_1527.png"></p><p> <strong>一,缓冲区基础</strong>"+ "</p><p> 1.缓冲区的属性:</p><p> "+ "容量(capacity):缓冲区能够容纳的数据元素的最大数量,这一容量是在缓冲区被创建时设置的,并且永远不能被改变</p>"+ "<p> 上界(limit): 缓冲区的第一个不能被读或写的元素。"+ "或者说,缓冲区中现存元素的计数。</p><p> 位置(position): "+ "下一个要被读或写的元素的索引,位置会自动由相应的get()和put()函数更新。</p><p> "+ " 标记(mark): 一个备忘位置,调用mark()来设定mark=position.调用reset()设定position=mark。"+ "标记在设定前是未定义的(undefied)。</p><p> 这四个属性的关系如下:</p";Pattern p = Pattern.compile(reg, Pattern.MULTILINE);str = str.replace(" ", "");Matcher m = p.matcher(str);while(m.find()) {String data = m.group(1).trim();if(!"".equals(data)) {System.out.println(data);}}}}
0 1
- java 正则匹配提取html纯文本
- Java正则表达式提取html纯文本
- JAVA从html中提取纯文本
- Java实现从Html文本中提取纯文本
- Java正则 HTML 标签 得到 纯文本
- Java正则 HTML 标签 得到 纯文本
- html片段提取纯文本
- java提取文档纯文本
- 去html格式,提取text纯文本
- 从html富文本中提取纯文本
- 正则 去除html文本和匹配邮箱
- Java过滤HTML标签,获取纯文本
- java获取HTML纯文本内容 body
- 使用正则表达式将Html转换为纯文本
- 使用正则表达式将Html转换为纯文本
- 使用正则表达式将Html转换为纯文本
- Python 正则表达式将纯文本转化为HTML格式
- 利用正则表达式除去html得到纯文本
- MTK平台camera AF马达驱动调试流程分析
- HDFS的web接口
- Wscript.Shell 对象详细介绍!!特好的东西
- 数制转换
- 浏览器基于安全保护不准加载本地图片的解决方案 --- 针对Firefox浏览器
- java 正则匹配提取html纯文本
- 从键盘输入文件结束符
- android推荐使用dialogFrament而不是alertDialog
- 1,随机一个数组长度,动态创建数组,所有元素随机生成,输出元素中的最大值
- 紫外线杀菌器:清洗型紫外线杀菌器原理
- Kali Linux 安装Nvidia显卡驱动
- Java JSONObject
- MyEclipse快捷键大全
- Lucene学习总结之一:全文检索的基本原理