总结和展望

来源:互联网 发布:淘宝粉丝福利购怎么领 编辑:程序博客网 时间:2024/06/15 04:25

第1章          总结和展望

1.1.    总结

随着Web网络的逐渐成熟,移动带宽的提高、云计算和物理网应用的丰富,越来越多的智能终端设备被接入到网络中,Web数据已经成为一个蕴含巨大价值的信息仓库。如何利用Web信息挖掘技术从"大数据"Web中高效、智能的获取信息,成为人们越来越关心的问题。

本文研究了Web信息挖掘的相关方法,形成了完善的主题的描述特征、网页特征和链接特征分析理论。针对结构挖掘,本文提出了三元组描述URL,构建URL层次树,用于映射网站的层次结构,利用网站的链接关系自动构建网站的链接结构,描述网站的主题层次信息,识别URL页面的类别。针对内容挖掘,本文提出了基于标题和正文依存树的中文网页正文抽取方法和基于语义和规则的Web网页细粒度信息抽取方法。基于标题和正文依存树的正文抽取方法认为正文抽取要考虑网页标题和网页正文之间的依存关系。方法实用性强,实现简单,不依赖网页类型结构,可以有效的抽取正文简短、正文评价较长等网页的正文。基于语义和规则的Web网页信息细粒度抽取方法,提出了网页属性化的理论,将半结构和无结构的网页转换为多个属性和属性值。方法有效的利用语义和规则,提高了抽取的细粒度。本文最后构建网站垂直挖掘模型,利用本文结构挖掘和内容挖掘,实现对网站的智能、有效、全面、精确的信息挖掘。

本文实现了以下创新:(1)本文详细研究了主题特征,多角度的挖掘Web信息;(2)智能的Web结构信息挖掘策略,适用于Web上的各种类型网站;(3)基于三元组的结构挖掘,能够识别网页URL的类别,有助于提高网站的提高搜索引擎、推荐系统的运行效率,有效的更新网站,同时能够网站更为细致的主题分类;(4)本文研究的内容挖掘解决当前大多Web正文抽取方法不能有效的抽取正文简短、正文评价较长等情况。Web页面细粒度抽取解决了当前Web抽取技术只能局限某一类网站、信息提取细致化程度低,准确性差等问题,方法能够对网页上的每种信息类型进行逐条提取。

1.2.    展望

Web信息挖掘是涉及多方面的研究领域,同时网络信息的急剧膨胀,Web信息的大量、广泛、动态、分散、不易管理性,使得还有以下方面需要改进和完善。

1.针对网站的结构挖掘,如何利用URL层次树将虚拟路径的正文式页面进一步细致的划分主题类别;如何解决网站多服务器带来的URL层次树过于复杂的问题;

2.对于网页正文抽取,随着移动互联网的迅速发展,网页的正文对象也发展了变化,由文本对象转向图片、视频对象,传统基于文本的抽取方法无法处理新的网页对象,如何根据新的网络发展情况,发展正文抽取方法,是急需解决的问题;

3.对于正文颗粒度抽取进一步的工作还有许多需要完成,例如语义词典的自动构建、自动学习,规则的自动发现等。

 

原创粉丝点击