Web-page Classification through Summarization,2004
来源:互联网 发布:淘宝客qq群推广软件 编辑:程序博客网 时间:2024/05/18 13:26
《基于摘要的网页分类方法》
较早期的网页分类论文,论文作者有很多。综合比较了几种网页摘要算法在网页分类中的表现,提出网页分类不应照搬纯文本分类的老路,而应该在去除网页噪声,提取网页主旨大纲上下功夫。论文实现了四种摘要提取算法,分别是:Adapted Luhn’s Summarization Method,Latent Semantic Analysis (LSA),Content Body Identification by PageLayout Analysis,Supervised Summarization。
简单总结四种提取算法:
Adapted Luhn’s Summarization Method:以句子为粒度,赋予每句话的重要度(significance factor),只选取重要度最高的几句话作为网页特征。为了计算句子的重要程度,首先制作一张重要词表,这里似乎是根据tfidf选择的。
0 0
- Web-page Classification through Summarization,2004
- How to deploy a .Net assmebly for COM use through CAB on Web Page (转)
- How to deploy a .Net assmebly for COM use through CAB on Web Page
- [Salesforce] How to redirect to customize page through override button
- Base Web Page
- Web Page Analyzer
- System.Web.UI.Page
- CRM WEB page 开发
- Web Page Diagnostics
- Web Page Performance
- Debugging Mobile Web Page
- VAAPI related web page
- Web Page Diagnostics
- web page collection
- web page seo
- Web Page的生命周期
- HTML Responsive Web Page
- Web Page Copy
- 多线程开发和Socket技术
- 常用的布局和View常用属性
- 对前端的一点小理解
- 销售员
- HDU2034--人见人爱A-B
- Web-page Classification through Summarization,2004
- ios解决http上传乱码问题
- [VB](更正:此前理解错误,static在整个程序运行中保留原值,每次调用过程static都应该保留上次原值,答案懒得改了)常见小程序积累
- 早期Swift中Cocos2D初始化代码的重构
- Struts2中result的type属性;值栈
- leetcode刷题,总结,记录,备忘 36
- CentOS下使用yum搭建LAMP环境
- PHP面向对象编程--继承(重写(多态)、封装、可见性)
- 个人博客开发手记(一)——初步设想