搜索引擎创新论

来源:互联网 发布:java 方法签名 throw 编辑:程序博客网 时间:2024/05/01 18:58

搜索引擎创新论

 

整理:Ackarlix

挨踢网【中文IT技术社区】http://www.aitic.net

 

前段时间作者写过一篇《论搜索引擎的创新》(以下简称《创新》),现在看来,文中的一些观点尚未过时,所以笔者打算进一步深化《创新》中的思想,当然,并不是文中所有内容现在仍坚持不变。笔者认为,理论应该与时俱进,这是理论务必要保持的一种可贵品质。

 

现实的创新,是搜索引擎创新的现实。笔者曾把搜索引擎的创新划分为两种类型:一种称之为“模式创新”,这种创新体现了搜索引擎发展的质的飞跃。另一种创新是“形式创新”,这种创新是量的变化或积累,而不是质的改变。目前,大公司推出的搜索在创新类型上,基本都停留在“形式创新”阶段。比如,googlesearchmash最近的变化,以及一些搜索引擎页面颜色的变化(最近的,如中搜和BBMAO)。了解马克思主义哲学的人,会发现我以上所划分的类型是运用唯物辩证法的质量变原理作为方法论指导的。

 

我在研究搜索引擎创新的过程中遇到了一些问题和一系列疑难,其中以下问题最为典型:

1.错误地高估了搜索公司的创新能力(搜索公司有资金和技术上的能力,但因为非技术问题,影响了创新)。

2.搜索公司内部和外部所处的社会关系影响甚至能决定创新的方向和创新的速度。

3.让搜索引擎更加智能化或人性化需要突破语言上的技术障碍。

 

在日常生活世界,人们之所以用话语交流而非关键词(单个词),是因为单个或几个词语表达的意义不完整,而将词语组成句子,就可表达出完整的意义、让说话者的意图更加明确,这是词语本身内在规定(性质)上的限制,所以在搜索的过程中,使用关键词时,由于词语表达的不完整和不明确的意图,无论是提问的深度还是搜索的深度都会受到严重的限制。自然语言理解是一项发展中的技术,笔者认为商业公司若能与高校联手合作,利用对方的优势,去开发这项技术一定会把研究推向一个新的高度。从当下的现实出发,我以为搜索引擎在功能的完善上,有如下工作需要做

 

1.增加按时间排序的功能。这项功能需要包括正序和倒序,正序遇到的问题是:搜索结果的相关性降低了,但能保证时间上的最近性。倒序的特点是:由于网络上信息重复率高,借由这个功能我们能知道眼前的信息最早出现在哪个时间段。我以为倒序也是有一定实用性的。

 

 

2.增加同义词搜索功能。我以为同义词不应只限于字典里的同义词,应该尽量和日常语言接轨,否则会削弱语言本身的丰富性。比如头皮屑的同义词是头屑头皮糠疹也是头皮屑的同义词,再如洗发水的同义词是洗发露洗发精洗发剂等。玩过现在流行的网游跑跑卡丁车的人会知道,水泡水炸弹的同义词。由此我们发现,以上的词汇都是字典里没有的,所以在建立同义词词库时要考虑到语言的丰富性问题。由于语言本身的模糊性,人类的语言才能够特别丰富。能指本身是开放性的,从一开始能指就有潜在的完整性,而所指主要与经验积累有关。恐怕,同义词词库的完善和完全是处于能指与所指之间的关系中的。当前特别突显的问题是,假如用户使用的关键词不恰当,会导致找不到所需的信息,即使需要的信息是存在的!!

 

3.在社区化产品方面应继续增强用户之间的互动,在社区的内容上,增加一些知识性的内容。长期泛娱乐化,会摧毁人的审美能力。长期处于娱乐内容的包围中,恐怕人们真的会幸福地变成傻瓜。

 

4.人工智能。社会化搜索原本是与个性化搜索相对应的概念,但现在不知为什么,竟然与人工智能相对,这恐怕是概念上的错位。因为人工智能与社会化搜索根本不是同一层面上的。顺便提一下,据说AISOU已经具备人工智能。

 

本文的重点在同义词搜索上,同义词在搜索时只是理论上的状态,在实际搜索中,人们最常接触和使用的是短语。我们为什么不能像建立同义词词库那样,也建立“同义短语”语库呢?同义词词库也好,同义短语语库也好,和中文分词一样,是基础性的、人工性的、积累性的。

 

有的时候,客观趋势是以总裁、经理们的主观秘密决定表现出来的。因为他们掌管着强大的媒体部门,相比之下,媒体对其有一定的依赖性。其实我们的总裁老爷们不相信任何客观发展趋势,只有用户才接受毋庸置疑的搜索引擎发展趋势。也可以说,用户对于未来搜索引擎的发展趋势除了相信之外,无能为力。

 

信息哲学也好、人工智能哲学也好,本质上是哲学而不是技术。由于学科之间的壁垒和分类,笔者深感能力有限,有时候也不得不产生怀疑,努力是不是真的有价值。希望在将来,各个学科之间的结合能更加紧密。

原创粉丝点击