抽取网页中的主要内容

来源：互联网发布：excel导入数据编辑：程序博客网时间：2024/05/18 23:12

    抽取网页中的主要内容，是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。
            String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+broken+pipe&safe=active"));
           System.out.println(content);

本人试过各大新闻网站，和论坛网站。都没有问题滴将网页的内容中主要部分抽取出来。也可以将网页下载下来。使用如下方法处理本地文件，当然也可以处理HDFS文件。

                  FileReader reader =new FileReader(new File("test.html"));
               String cont =ArticleExtractor.INSTANCE.getText(reader);
               System.out.println(cont);

可以试试哦：http://code.google.com/p/boilerpipe/

抽取网页中的主要内容
网页正文抽取中的网页编码字符集自动识别最佳方案
网页正文抽取中的网页编码字符集自动识别最佳方案 .
HTML网页制作主要内容
正则表达式抽取网页中的e-mail地址
抽取网页信息
Java抽取网页信息
网页信息抽取阶段性成果
网页正文的抽取
JTidy 抽取网页内容
主要内容
使用JTidy抽取网页内容
UCI网页信息抽取技术
网页数据抽取技术调研
网页抽取技术和算法
正则表达式抽取网页内容
抽取参考文献中的标题
抽取word中的背景图
C语言实现C++多态
eclipse+maven+tomcat 开发web项目
Instrumentation 功能介绍（javaagent）
Form中Block的重新查询
HTML5实现视频播放
抽取网页中的主要内容
给11gR2 RAC添加LISTENER监听器并静态注册
myeclipse非正常关闭，“Package Explorer”非正常显示，出现错误“Could not create the view: An unexpected exception was t
[ VIM ] vim高级进阶(替换/正则)!
Oracle ROWID
zoj 3683 模拟
chapter 8 Compilation, Execution, and Errors
HTML5实现音频播放
HBase入门篇4–存储