网络信息整合的几个关键点

来源：互联网发布：网络写手培训编辑：程序博客网时间：2024/05/05 13:18

信息整合系统要求对互联网中的各种优质资源进行分类整合，并提供灵活的分类分片检索功能，是一项非常庞大的项目。本文根据

道道合项目负责人温丙磊的介绍，对其中的几种重要的技术，做一下介绍。

1：网页信息抽取技术
因为要对网络中各种各样的网页进行信息整合，并且要提供不同类型数据的筛选，排序等功能。例如，对于购物信息，要精准的获取

不同购物网站网页的价格、折扣、评论数目等信息，而对于不同招聘网站的网页要精准的获取发布日期、发布公司、联系电话信息。

需要注意的是：1，对不同类型的网页要求的提取内容和数据类型是不一样的；2，待提取的网页数量是亿级的，数据量庞大；3，待

提取的网页是变化的，同一站点的同一类型页面样式可能不同，同一站点同一类型页面今天和明天的可能不同，不同站点的页面肯定

也不相同了。由此要对网页中的信息进行精准的提取，难度可想而知。互联网现有的网页抽取技术，基本有一下三种技术，1，基于

网页代码，对目标数据前后截取；2，基于正则对源码进行匹配提取；3，网页源码格式化后按要求进行提取。这三种技术各有优缺点

，但均不能满足我们的要求。最后我们自行研究开发了UCI网页信息抽取技术，可以做到基本摆脱目标网页源码的限制，也就是说，

即使目标网页发生了变化，也可以精准的提取数据。也适用于大规模网页信息提取，更重要的是规则库管理方便，可以灵活更新网页

的提取规则。假设我们已经获取了百万级别的网页数量，但其中的个别页面的提取规则发生了变化。如果是数据库存储的数据，我们

只需要update一下就可以了，但现在是一个规模相当与搜索引擎的网页库，不能容忍使用update语句的，当然也没有。UCI网页信息

抽取技术，是基于分布式系统的，经过测试可以很迅速简单对目标网页规则进行更新。

2：爬虫技术
爬虫是信息整合和搜索引擎都必有的一项基本网页获取技术，不同的是信息整合的爬虫比搜索引擎的爬虫更有针对性和灵活性。在实

际的开发过程中，我们要求爬虫更有效率的识别网页，辨别出哪些网页是需要抽取信息，哪些网页需要做其他处理的。另外，不同网

站的页面更新时间间隔是不相同的，所以我们的爬虫不但要具备识别网页是否有变化的功能，还要根据不同网站的更新频率进行自动

计算出抓取时间间隔的功能。

3：索引技术
信息整个系统是对互联网上的优质信息资源进行了分类整合。我们称每一类信息的整合体为一个信息源。每个信息源内对信息的筛选

是不同的，例如，楼盘信息根据价格、位置、年限、建筑类别进行筛选，招聘信息根据行业类别、工作地点、月薪进行筛选。所以对

已经抽取的网页项，都设置了相应的数据类型。在建立索引的时候，不像搜索引擎直接建立一个总的索引即可，信息整合，需要根据

不同的信息源建立不同的索引，并且每个信息源支持独有的信息筛选体系。
当然，建立起一套可商业化运作的网络信息整合系统难度是非常巨大的，本文只是对一些用到的有些技术做了些皮毛介绍。有些技术

层面的问题还没有解决，希望能有志同道合的朋友给予帮助。