基于广告链接和行块分布的网页正文抽取
来源:互联网 发布:淘宝上的食品能买吗 编辑:程序博客网 时间:2024/05/29 18:55
一种新型的网页正文抽取算法,对于广告的屏蔽很有效果。
代码移步github
现在网上能搜到的正文抽取算法一般有两类:
Readability:该算法先建立DOM树,然后对网页源代码中不同的HTML标签进行判断,逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。
行块分布算法:主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树,直接剔除HTML标签,剩下的网页文字之间会有一定的位置关系。
网上的这两种算法应用程度都很广,但是对两种算法进行测试后,发现两种算法对于正文和广告距离很近的网页的抽取效果都不是很好。
对于这种情况,我在参考了《基于行块分布函数的通用网页正文抽取》之后,提出了一种新的网页抽取算法,《基于广告链接和行块分布的网页正文抽取》。
该算法的最主要的改进是:在获得网页源代码之后,先将网页中所有的(a href)标签替换为*字符,然后剔除网页中的所有标签。再用行块分布函数对留下的网页文字之间的位置关系进行分析,但是在分析时要加入对广告文本的判断。
具体做法可以查看github项目 webarticle
有时间继续补充算法细节
1 0
- 基于广告链接和行块分布的网页正文抽取
- 基于行块分布函数的通用网页正文抽取算法初步认识
- 基于行块分布函数的网页正文抽取算法代码实现
- 基于行块分布函数的正文抽取
- 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 基于标题和正文依存树的中文网页正文抽取方法
- 网页正文的抽取
- [原]基于统计的中文网页正文抽取的研究
- 怎样抽取网页标记之间的正文
- 利用HtmlParse抽取网页正文内容
- 基于hadoop的网页元素抽取
- 网页正文抽取中的网页编码字符集自动识别最佳方案
- 网页正文抽取中的网页编码字符集自动识别最佳方案 .
- 基于网页分析构思出的正文提取算法
- 基于文本密度的新闻正文抽取方法之Python实现
- 网页的链接会弹出广告气泡
- 基于语义和规则的Web网页细粒度信息抽取方法
- 仿网易新闻主界面(一)——RadioGroup+Fragment
- Oracle(24)pl/sql编程 视图
- Linux内核分析(七)之待时而动
- Gallery和ImageSwitcher ---------- 制作图片浏览器
- 20
- 基于广告链接和行块分布的网页正文抽取
- 1049. Counting Ones (30)
- 一些java笔试面试题
- 【CQOI2017 省选爆炸记】
- gRPC Basics
- 深入理解JVM一加载机制
- ATM
- Clean Code 《代码整洁之道》阅读笔记
- 有了目标,就要好好努力