使用正则将获取的网页中的所有HTML标记清空

来源:互联网 发布:群众 知乎 编辑:程序博客网 时间:2024/06/09 23:44

对于网络编程中获取到的网页HTML文档,可以用“<.*?>"这一段正则删除<>中的所有内容,包括<>.

java中使用

html.replaceAll("<.*?>", "");
就能实现网页内容的提取

0 0
原创粉丝点击