TRS电信114企业搜索引擎解决方案

来源:互联网 发布:php 数组buffer 编辑:程序博客网 时间:2024/04/30 20:46
服务电信行业 打造生活搜索
TRS电信114企业搜索引擎解决方案
TRS公司结合电信企业建设114搜索引擎的需求,应用多年来自主开发的TRS Database Server作为企业搜索引擎服务的平台,配套TRS文本挖掘基础件、TRS网络信息雷达和数据内容分发服务模块,向电信行业推出智能、安全、跨平台、个性化的电信行业114企业搜索引擎解决方案。此方案已经在中国电信全国中心114企业搜索引擎项目和上海电信号码百事通搜索引擎项目中获得了成功应用。
第 2 页 共 29 页
目录
1. 概述..................................................................................................................3
1.1方案背景...................................................................................................3
1.2企业搜索引擎与互联网搜索引擎的区别...............................................4
1.3电信114企业搜索引擎建设需求分析...................................................8
1.4电信114企业搜索引擎建设目标.........................................................11
2 TRS电信114企业搜索引擎解决方案架构..................................................11
2.1 系统整合电信多种信息来源,支持内容实时增量索引....................13
2.2 集群架构支撑大规模部署应用,支持内容海量安全管理................14
2.3应用垂直搜索实现内容挖掘分析利用,支持电信企业开发特色搜索服务.......................................................................................................16
2.4搜索高效、准确,向用户提供智能个性搜索体验.............................17
3 方案特点和优势..........................................................................................18
3.1“安全”的搜索引擎..............................................................................18
3.2更高的搜索准确性和智能性.................................................................18
3.3个性化的搜索体验.................................................................................19
3.4强大的异构资源整合搜索.....................................................................19
3.5标准、开放的系统,提供强大的系统扩展能力.................................19
3.6具有充分满足需求的自主核心技术和产品.........................................20
3.7采用先进的搜索引擎技术.....................................................................20
3.8基于内容的自动分类和聚类技术.........................................................21
3.9基于内容的信息去重技术.....................................................................22
3.10优异的全文检索性能...........................................................................23
3.11成功的应用模式和丰富的应用经验...................................................26
3.12专注的服务...........................................................................................26
4 联系方式..................................................................................................................28
5 版权声明..................................................................................................................29
第 3 页 共 29 页
1.概述
1.1 方案背景
2006年,随着中国互联网搜索市场的迅猛发展,百度、Google、雅虎、搜狐搜狗、新浪爱问、中国搜索等国内外搜索引擎在中国市场展开了空前激烈的竞争。在搜索市场的巨大市场价值的吸引下,国内电信运营商纷纷推出向综合信息服务提供商转型的战略举措,加入争夺搜索市场份额的行列。
2006年6月,中国电信全面升级114查号业务,推出了全新的号码百事通业务,为将近8亿的电话用户提供方便、快捷的综合信息服务。号码百事通立足于百姓的衣、食、住、用、行、乐,着眼于生活的便利、便捷,致力于为公众提供综合信息服务。在中国电信瞄准这一巨大的潜力市场的同时,国内另一固网运营巨头中国网通,也开始在其北方10省推广类似的电话搜索引擎服务。重量级的电信运营商加入搜索引擎市场的争夺,预示着2007年搜索市场将产生风起云涌的变化。
目前用户对互联网服务的使用、获取方式的变化以及服务商为此进行的技术创新,是搜索形态变迁的关键,也是不同搜索服务商竞争的核心。作为互联网产业发展最重要的方向之一,以Google、百度为代表的第二代搜索服务实际上与互联网服务整体发展的第二个阶段是相互对应的。第一阶段是网站呈现,目录分类;第二阶段是内容交互,网络搜索;第三阶段是任意聚合,个性搜索;第四阶段是自由交互,智能发布与搜索。第三代互联网搜索引擎将在个性化、语义智能分析、搜索结果优化等方面取得明显进步。
虽然电信运营商推出搜索引擎有其本身的品牌和资源优势, 但是常规的互联网搜索模式已经被成熟的搜索引擎深度挖掘,百度、google等搜索巨头长期积累的竞争优势却不是短时间就能赶超。那么电信运营商的新搜索引擎如何才能立足搜索市场并在局部胜出呢?其关键在于深入整合挖掘电信运营商的企业内
第 4 页 共 29 页
部网络资源和信息资源优势,侧重于特定关键领域提供特色搜索服务,为用户提供真正有价值的信息。
对于中国电信和中国网通而言,114巨大的品牌资源、庞大的用户群、广泛的知名度是电信运营商实现信息服务平台的最佳载体。通过114平台的发展,刻意逐步将基于语音的增值服务嫁接到统一的平台上来,并为客户提供提供衣、食、住、用、行、乐等方面便利快捷的综合信息。目前,中国电信的号码百事通业务和中国网通的114电话导航业务,在国内各省区陆续展开。而作为该业务核心的114企业搜索引擎更是2007年各省市电信公司建设的重中之重。
北京拓尔思(TRS)信息技术有限公司是国内企业搜索引擎和内容管理软件的领导厂商, 公司在企业搜索引擎领域占据着国内企业级搜索引擎市场的70%。TRS公司结合电信企业建设114搜索引擎的需求,应用多年来自主开发的TRS Database Server作为企业搜索引擎服务的平台,配套TRS文本挖掘基础件、TRS网络信息雷达和数据内容分发服务模块,向电信行业推出智能、安全、跨平台、个性化的电信行业114企业搜索引擎解决方案。此方案已经在中国电信全国中心114企业搜索引擎项目和上海电信号码百事通搜索引擎项目中获得了成功应用。
1.2企业搜索引擎与互联网搜索引擎的区别
搜索引擎的出现,整合了互联网上众多的网页资源,并提供信息导航和信息查询服务,使信息的价值得到了网民和厂商的普遍认可。一提到搜索引擎,就自然联想到互联网搜索引擎,再加上一些厂商刻意的推波助澜,造成了互联网搜索引擎取代所有搜索引擎的概念。而实际上我们可以看到不同搜索引擎之间的差别很大。
TRS电信114搜索引擎是以TRS的企业级搜索引擎为基础的。TRS所说的企业搜索引擎(Enterprise Search Engine,简称ESE)中的企业并非..指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求,这里的“企业”可以理解为“企业级...”,即企业级搜索引擎。那么,对于企业级搜
索,我们对“搜索”的诉求又是什么呢?和互联网搜索引擎相比,它又有哪些不同呢?
实际上,搜索引擎服务是内容管理技术的一个典型应用。我们不妨从内容管理的框架来看搜索引擎的各个环节,即从信息内容的采集,加工,管理,到服务,以至到信息内容的“发现”来比对一下企业级搜索引擎的不同。
*SEO:搜索引擎优化,利用工具或其他手法夺取较好的网络排名。
1、复杂结构数据的搜索
互联网上搜索的数据一般都是网页形式的,尽管这几年网上丰富起来的图片、MP3等信息形式,但其组织形式仍是基于HTML组成的网页。而企业级用户需要搜索的数据既有互联网站上的,也有内部网站上的;既有网页形式的,又有各种数据库形式的,如SQL Server、Oracle数据库等;既有结构化数据,又更多的是各种电子文件格式的非结构化及半结构化数据,如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的数据,又有多媒体形式的数据;而且,同一机构的数据还可能分布在不同介质的载体上。
第 5 页 共 29 页
第 6 页 共 29 页
然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。
并且,互联网搜索内容对于用户来说都是未知的,而企业级搜索的对象基本上是已知信息源,其中包括企业资料库、目录、帮助文本、源代码信息库、新闻组等,在对这些信息进行索引时,用户需要按照内容而不是通过比较源链接来进行排列。
2、严格的安全搜索
在企业内部,安全的问题是无法回避的。因为企业内部的信息不象“人人平等”的互联网信息,其信息内容带有明显的“等级”安全特性。所以,当搜索技术变得无所不能,人们反而开始担心,如果搜索的结果泄漏了企业的机密怎么办?如果企业原有的安全架构对新的搜索技术失效了怎么办?这些疑问都让用户感到如鲠在喉,岌岌小心。
很多业内人士在谈到搜索安全的话题就忧心忡忡,他们普遍认为搜索环境并没有为企业级应用做好足够的准备,未来充满太多的变数。而在一些实际的应用中,我们看到,即便为数据定义了文档级和数据库级的双重安全保障,搜索引擎的"魔爪"还能透过授权的索引文档来"搜索"它们。
因此,针对企业网中不同的用户对不同的资源,其使用权限都可能不一样,需要企业搜索引擎能够对用户、资源、权限分级管理和控制,确保系统的安全。
3、高可靠的查全和查准
作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的查全率和查准率有着非常高的要求。因此,需要利用各种手段来提高搜索引擎的查准率和查全率。
第 7 页 共 29 页
从查全率来看,互联网搜索引擎无从谈起查全率,因为互联网上的信息如此泛滥无边,任何一个搜索引擎服务商都无法穷尽互联网上的每个网页。而在企业级的某些应用中,是不允许有所遗漏的检索。必须对企业内部每个需要提供服务的信息进行索引。在检索机制上必须保障效率的前提下达到全面搜索的要求。
同样的道理,在互联网上因为信息自由的特点,决定了搜索只能通过“关键词匹配”这种核心检索手段去实现。而在企业内部,信息的组织复杂了许多。企业级搜索引擎有完善的信息分类体系,元数据,对象数据多层逻辑的组织形式,在查询上满足基于对象数据内容和元数据标引体系的精确查询要求。
4、智能化的检索服务
企业内部的搜索服务,带有鲜明的业务特性,不像互联网搜索引擎仅提供信息参考。在企业内部的搜索结果将直接参与到企业的运营、决策中。所以,对于搜索的结果处理,搜索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息非常重要。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等,都将有利于企业对信息资源的高效利用。
5、企业搜索引擎通常都和企业其他的IT应用有机结合
以内容管理技术为框架,搜索技术为支撑,企业搜索引擎通常与数据管理、内容管理、记录管理、竞争情报、团队协同、过程管理、信息门户等知识管理的各个环节密切结合,构成管理企业知识资产的完整而又灵活的体系。知识内容管理对搜索引擎技术提出了更高的要求,而先进的搜索引擎技术则为知识内容管理提供了工具和保障。在市场上我们也可以看到,国内外企业级搜索引擎厂商,有许多也是知识内容管理解决方案的提供商。
第 8 页 共 29 页
6、实时的信息搜索服务
正如前所叙,企业内部的搜索服务,具备业务特性,需要将搜索结果参与企业的运营和决策。所以通过搜索引擎提供的服务,必须能够动态地反应实际情况,即当内部的信息发生变化时,必须能够实时反应。在企业,不允许出现像互联网搜索引擎服务那样信息滞后更新的现象。
1.3电信114企业搜索引擎建设需求分析
2007年,要想在搜索市场占领先机,就需要使电信114企业搜索引擎具备差异化的竞争优势。如何培养用户使用习惯?如何聚集商业客户合作伙伴?如何实现平台搜索技术的改造升级?这些成为是电信公司建设114搜索引擎需要面对和解决的问题。目前各省市基本都建设了号码百事通和114电话导航的平台。
从客户需求角度分析,114搜索引擎用户存在前向查询客户和后向被查询客户两种角色,这两种客户对于号码百事通业务有着不同的需求和价值:
从前向查询客户角度分析:
首先,前向查询客户拨打114是要获得能够解决衣食住行各类生活问题的相关线索,具体而言,就是提供各类服务组织的电话号码。
其次,用户获得信息线索后需要进行一定的选择比较,即客户为了最终解决某个问题或完成某件事情,需要把获得的信息、线索进行比较分析,找到最佳路径。
再次,进行订单交易,即客户通过比较选择后,确定了对象,有直接转接或者预订的需求。在现代的信息社会里,“预先确定”已经成为人们享受某项服务之前的必要环节。
最后,完成服务,即客户实现最终消费、解决问题或者完成服务的过程。在这个环节中,客户可能会用到电子支付,也会有服务质量反馈等后续事务。
由此可见,前向客户需求链的存在,为114搜索引擎业务提供了良好的发
第 9 页 共 29 页
展空间。正是为了满足前向客户需求、最大限度地为客户提供“一站式”便捷服务,号码百事通需要建立丰富的本地生活类信息数据库,为前向客户提供查询转接、短信播报等业务,从而获得广阔的号码信息增值服务新市场。
从后向被查询客户需求角度分析:
与前向查询客户的需求环节相对应,根据需求层次不同,后向被查询客户的需求分为三类:
第一类,后向客户需要将114平台作为信息发布的媒介。中国电信114有着广泛的客户群体,像使用电视、报刊、互联网这些主流媒体一样,政企客户需要尽可能地在114这一语音媒体上发布更多的信息。中国电信114能够以其诚信、高品质的品牌形象,为政企客户提供广传播、可信赖的语音信息发布平台,能够让更多的客户了解后向客户的服务能力和企业形象。
第二类,后向客户需要114成为企业的一个营销渠道。高品质企业客户看重中国电信良好的品牌形象和114“一对一”信息传递的特性,希望114能够成为其强有力的营销渠道。传统的企业营销采用公共媒体广泛行销,近来越来越多的企业开始注重精准信息的分众传递,即根据目标客户群的年龄、职业、地域特征,选择信息投放范围和信息投放方式,以期把营销做得快速、准确、有力度。例如,“分众传媒”瞄准中国高中端商务人士做专业楼宇广告联播,在纳斯达克成功上市;
第三类,后向客户需要114成为其业务交易平台。企业使用114进行宣传、营销之后,需要进一步延伸服务,尽可能地促成交易。信用卡、电子支付的盛行,为电话支付、在线交易(bizon-line)提供了坚实的基础,114延伸为业务交易平台,可以更大程度地为前后向客户提供服务。
可见,后向客户的需求同样为号码百事通业务提供了广阔的发展空间,号码百事通诚信、便捷、广泛服务的品牌形象,能够为优质政企客户提供良好的宣传、营销和交易平台。
业务的丰富也对114企业搜索引擎提出了更高的建设要求。大致需求有以下几点:
第 10 页 共 29 页
1.对业务应用所需的企业信息库急需快速补充、整理和完善,才能为前端查询用户提供有价值的信息服务
在业务应用方面,114企业搜索引擎的业务应用主要包括优先报号、实名查询、品牌查询、临时报号、查询转接、短信报号、话务呼转、企业名片、企业广告、指路服务、个人号簿、企业总机、签约客户分析、注册客户分析等14大类。
这些业务应用推广的关键是必须保证数据库中的信息必须准确、有效、及时。目前从全国范围看,各省电信公司的企业信息库还需快速补充和完善,以应对日益增长的外部电话和网络搜索的需求。
2.对于庞大的信息资源库和数据库内的信息要进行特定领域的挖掘和搜索
由于基于114转型的电话搜索业务,主要是向前端用户提供准确、及时、深入的衣、食、住、行、乐等相关的综合信息服务。因此针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,才能真正获得目标用户的青睐。所以需要建立需要具有特色垂直搜索功能的114企业搜索引擎。
3.跨地域、跨业务、跨平台的信息共享不到位,无法发挥规模效应
全国各省市的电信公司分布区域大,业务应用众多,公司内部存在各种数据库和信息平台。企业内部的数据和信息没有进行很有的共享和利用,所以无法发挥全国电信公司的规模效应;114企业搜索引擎应实现对各省本地和跨区域的信息查询,并支持对互联网信息的查询。
3.平台需要聚集并支持大规模的商业合作伙伴运营,后台商务信息的互动发布,竞价排名。
电信行业114企业搜索引擎,不仅需要满足前向查询用户查询需求,而且为后向被查询企业客户创造了优先接触目标消费者和发布商务广告的机会。
4.各省电信公司都需要开发自己的特色业务,因此要求平台具有良好的扩展性。
为了解决上述问题,需要各地电信114企业数据信息库的数据模型统一并且进行升级改造,建设全国统一搜索引擎以实现全国114信息的共享和全国跨地域信息查询。
第 11 页 共 29 页
1.4电信114企业搜索引擎建设目标
114企业搜索引擎的建设将会延伸114的功能,丰富114的信息服务内容和形式,力争把114做成语音搜索领域的Google。
电信企业建设114搜索引擎建设工程将实现以下目标:
(1) 帮助电信公司建设全国统一114企业搜索引擎,实现跨省查询业务,并为没有建设搜索引擎的省份提供省内114企业搜索引擎。
(2) 支持对各省市电信公司114业务应用相关内部数据库和信息资源库进行补充完善,并进行个性化服务的信息挖掘和整合。系统支撑大规模用户跨地域和跨平台搜索。
(3) 114企业搜索引擎具备开发特定领域垂直搜索的能力,各地电信公司可以在此平台上进行二次开发。
(4) 聚集商业客户及合作伙伴,满足企业客户竞价排名、信息发布、商机获取、资源共享等的双向需求。
2 TRS电信114企业搜索引擎解决方案架构
TRS公司作为国内企业级搜索引擎和内管理领域的领导软件厂商,一直在该领域拥有先进的理念、成熟的产品和先进的信息检索、内容管理和文本挖掘技术。TRS电信114企业搜索引擎2006年在中国电信号码百事通全国中心搜索引擎项目,和上海电信号码百事通搜索引擎的基础上得到了成功的应用,积累了丰富的行业实践经验。这些项目实践对全国各地电信企业建立或升级114企业搜索引擎也具有良好的示范意义。
TRS公司结合电信行业114业务应用需求,依托自身企业搜索引擎产品和中文信息处理技术,推出的的电信114企业搜索引擎解决方案,能够全面整合索引搜索电信114业务应用的信息内容,并向用户提供高效的、准确的、安全的、个性化的搜索体验。其框架图如下:
从图中可以看到,TRS电信114企业搜索引擎采用TRS高性能的TRS Database Server 6.0集群构作为索引和搜索基础平台;TRS数据库网关作为跨平台数据导入工具,整合索引电信企业组织内部各类应用系统、数据库、外购信息库、自建信息库等多种信息资源;TRS网络信息雷达作为网络信息采集工具,定向采集特定的网络信息资源;TRS CKM作为文本挖掘的工具,应用文本自动分类、自动聚类、信息过滤等中文处理技术对业务应用信息技术深度挖掘分析;TRS内容分发服务器作为内容服务模块,实现内容的个性化搜索服务。并且整个架构拥有很强的扩展性,对用户开放开发接口,电信企业可以自行开发具有特色的搜索服务。 第 12 页 共 29 页
2.1 系统整合电信多种信息来源,支持内容实时增量索引
在电信企业内部,许多信息内容的创建和生产都分散在各个应用系统中,而这些应用系统的数据存储基本上都是采用关系型数据库或者NOTES系统中。这些外部信息资源可能包括企业CRM系统、10000号系统、帐务系统等应用系统,也可能包括查号数据库、企业信息库、用户信息库等业务应用数据库,也可能包括外购资源、自建数据库等其他信息源。
TRS公司推出的企业搜索引擎解决方案,利用TRS公司多年来自主开发的TRS Database Server作为企业搜索引擎服务的平台。可以将电信企业内外部多种格式、多种介质形态、多种存储方式的内容信息,以实时的方式将这些信息进行索引。并且在索引的过程中力求能够做到准确,并配合以相关智能语言技术做信息的去重、自动标引等能力。其框架如图: 第 13 页 共 29 页
第 14 页 共 29 页
TRS支持包括Oracle、SQL Server、DB2、Sybase和Mysql等业界主流关系数据库系统,既可以实现数据库数据一次性向TRS Server的迁移,实现历史数据的采集入库到数据管理平台;也可以实现增量动态运行方式,无缝透明支持各种应用数据的数据库采集。将应用中的数据实时地反映到114企业搜索引擎平台服务器中(TRS Database Server)。
2.2 集群架构支撑大规模部署应用,支持内容海量安全管理
在电信114企业搜索引擎应用中,海量信息的管理完全不同于互联网搜索引擎。首先在信息总量上,因为114企业搜索引擎应用是分散在各个电信企业内部,并且每个地域、每个应用系统的数据量都是海量的。随着业务应用的增加,数据量将会成倍增长。TRS电信114企业搜索引擎平台服务器在系统架构上,应用集群技术,支持分布式部署,实现在单台或者数台机器中实现电信企业内部海量数据的管理。从信息安全的角度,电信114企业搜索引擎服务保障业务信息是按秩序、按组织规则授权方式的搜索。而不象互联网搜索引擎上的人人搜索。
TRS全文数据集群服务器,是架构在多个物理TRS全文数据库服务器之上的分布式管理系统,它支持数据分布及负载均衡两种方式,并支持两种方式的组合运用,满足用户海量数据和高并发环境下的分布式检索、检索性能和可靠性要求。
TRS全文数据库集群系统结构示意图
“TRS全文数据库服务器组”内的数据库服务器之间负载均衡
组内的数据库服务器由集群服务器统一调度,一个服务请求只发往组内的一个数据库服务器,一个“TRS全文数据库服务器组”至少包含一个数据库服务器。
“TRS全文数据库服务器组”之间实现分布式检索
用户一个检索请求需要根据其所包含目标对象的分布情况,发往其中部分或全部的数据库服务器组,TRS全文数据库集群服务器对检索结果集归并处理后返回给用户。
采用TRS全文数据库系统V6的集群架构可实现以下目标:
原创粉丝点击