抽取网页中的主要内容
来源:互联网 发布:excel导入数据 编辑:程序博客网 时间:2024/05/18 23:12
抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。
String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+broken+pipe&safe=active"));
System.out.println(content);
本人试过各大新闻网站,和论坛网站。都没有问题滴将网页的内容中主要部分抽取出来。也可以将网页下载下来。使用如下方法处理本地文件,当然也可以处理HDFS文件。
FileReader reader =new FileReader(new File("test.html"));
String cont =ArticleExtractor.INSTANCE.getText(reader);
System.out.println(cont);
可以试试哦 :http://code.google.com/p/boilerpipe/
- 抽取网页中的主要内容
- 网页正文抽取中的网页编码字符集自动识别最佳方案
- 网页正文抽取中的网页编码字符集自动识别最佳方案 .
- HTML网页制作主要内容
- 正则表达式 抽取网页中的e-mail地址
- 抽取网页信息
- Java抽取网页信息
- 网页信息抽取阶段性成果
- 网页正文的抽取
- JTidy 抽取网页内容
- 主要内容
- 使用JTidy抽取网页内容
- UCI网页信息抽取技术
- 网页数据抽取技术调研
- 网页抽取技术和算法
- 正则表达式抽取网页内容
- 抽取参考文献中的标题
- 抽取word中的背景图
- C语言实现C++多态
- eclipse+maven+tomcat 开发web项目
- Instrumentation 功能介绍(javaagent)
- Form中Block的重新查询
- HTML5实现视频播放
- 抽取网页中的主要内容
- 给11gR2 RAC添加LISTENER监听器并静态注册
- myeclipse非正常关闭,“Package Explorer”非正常显示,出现错误“Could not create the view: An unexpected exception was t
- [ VIM ] vim高级进阶(替换/正则)!
- Oracle ROWID
- zoj 3683 模拟
- chapter 8 Compilation, Execution, and Errors
- HTML5实现音频播放
- HBase入门篇4–存储