爬虫相关 ---- 正则表达式过滤掉html里面的部分代码(注释)

来源:互联网 发布:c语言中读和写的区别 编辑:程序博客网 时间:2024/04/28 16:12
在网上看到一个大神的代码,得到html代码以后如何过滤掉注释代码。网上有人推荐使用JSOUP的cleaner,有人推荐正则。

这个方法特别简单易懂。保存下来方便学习参考。

Pattern p=Pattern.compile("\\<!--(.+)--\\>");
  String html=".....";//jsoup得到的html代码
  Matcher m=p.matcher(html);
  while(m.find()){
   System.out.println(m.group());
  }
0 0