网络信息整合的几个关键点

来源:互联网 发布:网络写手培训 编辑:程序博客网 时间:2024/05/05 13:18

 信息整合系统要求对互联网中的各种优质资源进行分类整合,并提供灵活的分类分片检索功能,是一项非常庞大的项目。本文根据

道道合项目负责人温丙磊的介绍,对其中的几种重要的技术,做一下介绍。

1:网页信息抽取技术
因为要对网络中各种各样的网页进行信息整合,并且要提供不同类型数据的筛选,排序等功能。例如,对于购物信息,要精准的获取

不同购物网站网页的价格、折扣、评论数目等信息,而对于不同招聘网站的网页要精准的获取发布日期、发布公司、联系电话信息。

需要注意的是:1,对不同类型的网页要求的提取内容和数据类型是不一样的;2,待提取的网页数量是亿级的,数据量庞大;3,待

提取的网页是变化的,同一站点的同一类型页面样式可能不同,同一站点同一类型页面今天和明天的可能不同,不同站点的页面肯定

也不相同了。由此要对网页中的信息进行精准的提取,难度可想而知。互联网现有的网页抽取技术,基本有一下三种技术,1,基于

网页代码,对目标数据前后截取;2,基于正则对源码进行匹配提取;3,网页源码格式化后按要求进行提取。这三种技术各有优缺点

,但均不能满足我们的要求。最后我们自行研究开发了UCI网页信息抽取技术,可以做到基本摆脱目标网页源码的限制,也就是说,

即使目标网页发生了变化,也可以精准的提取数据。也适用于大规模网页信息提取,更重要的是规则库管理方便,可以灵活更新网页

的提取规则。假设我们已经获取了百万级别的网页数量,但其中的个别页面的提取规则发生了变化。如果是数据库存储的数据,我们

只需要update一下就可以了,但现在是一个规模相当与搜索引擎的网页库,不能容忍使用update语句的,当然也没有。UCI网页信息

抽取技术,是基于分布式系统的,经过测试可以很迅速简单对目标网页规则进行更新。

2:爬虫技术
爬虫是信息整合和搜索引擎都必有的一项基本网页获取技术,不同的是信息整合的爬虫比搜索引擎的爬虫更有针对性和灵活性。在实

际的开发过程中,我们要求爬虫更有效率的识别网页,辨别出哪些网页是需要抽取信息,哪些网页需要做其他处理的。另外,不同网

站的页面更新时间间隔是不相同的,所以我们的爬虫不但要具备识别网页是否有变化的功能,还要根据不同网站的更新频率进行自动

计算出抓取时间间隔的功能。

3:索引技术
信息整个系统是对互联网上的优质信息资源进行了分类整合。我们称每一类信息的整合体为一个信息源。每个信息源内对信息的筛选

是不同的,例如,楼盘信息根据价格、位置、年限、建筑类别进行筛选,招聘信息根据行业类别、工作地点、月薪进行筛选。所以对

已经抽取的网页项,都设置了相应的数据类型。在建立索引的时候,不像搜索引擎直接建立一个总的索引即可,信息整合,需要根据

不同的信息源建立不同的索引,并且每个信息源支持独有的信息筛选体系。
当然,建立起一套可商业化运作的网络信息整合系统难度是非常巨大的,本文只是对一些用到的有些技术做了些皮毛介绍。有些技术

层面的问题还没有解决,希望能有志同道合的朋友给予帮助。

 

原创粉丝点击