Web-page Classification through Summarization,2004

来源:互联网 发布:淘宝客qq群推广软件 编辑:程序博客网 时间:2024/05/18 13:26

《基于摘要的网页分类方法》

较早期的网页分类论文,论文作者有很多。综合比较了几种网页摘要算法在网页分类中的表现,提出网页分类不应照搬纯文本分类的老路,而应该在去除网页噪声,提取网页主旨大纲上下功夫。论文实现了四种摘要提取算法,分别是:Adapted Luhn’s Summarization Method,Latent Semantic Analysis (LSA),Content Body Identification by PageLayout Analysis,Supervised Summarization。

简单总结四种提取算法:

Adapted Luhn’s Summarization Method:以句子为粒度,赋予每句话的重要度(significance factor),只选取重要度最高的几句话作为网页特征。为了计算句子的重要程度,首先制作一张重要词表,这里似乎是根据tfidf选择的。

0 0