cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
来源:互联网 发布:美家预算软件 编辑:程序博客网 时间:2024/05/22 12:00
今天看了cx师兄写过的一个网页正文抽取算法。线性时间、不建DOM树、与HTML标签无关,十分佩服。
简述其主要思想如下:
1.将网页HTML文本去除其所有标签及脚本,得到粗糙正文块
2. 求行块字数的分布函数。
3.求该函数的骤升和骤降点,中间即为正文。
其中,行块是指,以第i行为轴,取其周围k行,为第i个行块。很简单是不是。
行块字数,是说第i个行块内的文本总字数。也很简单对不对。
对于已经去除标签的文本Ctext,只需要进行一遍扫描,就能求出从第1个行块 到 第n个行块的所有行块字数对不对?
而且,由于正文文本一般都有聚集性,而且正文文本块里的文字应该比其他地方的多对不对?
好吧,好吧 我们只需要从行块分布函数中找到骤升骤降点,然后两点之间的行块即为正文文本块,对不对?
ok,只需不到一百行代码,线性时间、不建DOM树、与HTML标签无关,正确率95%以上。
怎么样?
简单的事情总应该用最简单的方法来解决。
顶cx师兄!
ps: 整个系统代码及论文介绍在 http://code.google.com/p/cx-extractor/
- cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 基于行块分布函数的通用网页正文抽取算法初步认识
- 基于行块分布函数的正文抽取
- 基于行块分布函数的网页正文抽取算法代码实现
- 基于广告链接和行块分布的网页正文抽取
- 网页正文的抽取
- 基于标题和正文依存树的中文网页正文抽取方法
- [原]基于统计的中文网页正文抽取的研究
- 怎样抽取网页标记之间的正文
- 如何抽取HTML正文
- pytho多线程+html正文抽取
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- wsprintf和swprintf区别(转)
- redis-lua(二): 遍历数据库
- Hibernate概述
- HDU 动态规划(46道题目)倾情奉献~
- Eclipse中SVN版本控制插件的安装和使用
- cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- SVN的简明用户使用指南,eclipse版本
- Repository Browser显示期望文件系统为2 而不是4
- linux putty下中文乱码
- 新开播客
- 面试和IT就业方向
- 书评一
- ARM44b0 中断总结
- 在struts里面使用Tiles框架