生不逢时的360搜索

来源:互联网 发布:加密软件破解版 编辑:程序博客网 时间:2024/04/30 12:33

编者按:本文作者徽剑,深圳徽剑网络科技有限公司CEO,雷锋网特约撰稿人。360推搜索,百度股价应声下跌,业界震动,为此作者从4个角度对360搜索进行分析,并做出预言(文章观点不代表雷锋网)。

这篇文章,我尽可能回避专业的技术,尽可能用通俗的语言给大家分析一下360等搜索,如有不当之处,请勿见笑。

一、周鸿祎的搜索情结

军事上可以从一个统帅的性格,来判断他可能的指挥方式。同样,从一个企业的产品、企业运作,我们可以看到一个企业领导人的性格,从而从这个性格又可以进一步推测他下一步可能的行动。

360最近推出了搜索,这个徽剑我在07年的时候就说过,我说周鸿祎早晚还会做搜索,因为他不是那种愿意做最原始的信息贡献的性格,而是喜欢整合资源,或者说投机取巧的人。无论是早期的3721,还是后来奇虎聚合等,都可以看到这点。

周鸿祎其实是有很强的搜索情节的,因为他的第一桶金就来自一款搜索产品—3721,尽管后来这款产品被人评价为流氓软件,但是不可否认一点,那就是在中国互联网普及的阶段,对于大批连com和net是啥都分不清楚的人来说,3721让他们使用熟悉的中文就可以在网上畅游了。

当初3721是这么宣传的:“3721公司提供的中文上网服务――3721“网络实名”,是第三代中文上网方式,用户无需记忆复杂的域名,直接在浏览器地址栏中输入中文名字,就能直达企业网站或者找到企业、产品信息。”但是在网络上3721被称为是最大的流氓软件之一,现已停止运营。

“3721网络实名插件由奇虎公司现任董事长周鸿祎一手创办,它通过地址栏实现中文搜索。2003年11月,雅虎1.2亿美元收购3721公司,该软件更名雅虎助手。2005年10月,阿里巴巴宣布完成对雅虎中国全部资产收购,3721业务随之并入马云手中。2006年,互联网业内掀起“反恶意软件”的热潮,周鸿祎率领360安全卫士成为反恶意软件先锋,曾经由他一手创办的3721软件(雅虎助手)则成了他“围剿”的重点目标之一。当年9月,阿里巴巴宣布投资1亿元继续开发与推广雅虎助手,但随后并未看到有实质的市场举动。”这是网上对3721的一段描述。

3721最大的争议,就在于他的传播方式,还有安装后排斥竞争对手、独占用户电脑的网络查询接口的技术手段。3721虽然给那些菜鸟网民提供了极大的方便,但是对于那些掌握一定技术能力的熟练网民,还有就是被3721所干扰的竞争对手,都会采取各种手段针对3721。从而使得3721在几年后变得越来越被更多的人所排斥。

当年的3721一出来,采用的是利用WINDOWS 98的系统漏洞,用病毒的方法进行传播,在短期内就积累了海量的用户。有人曾经问过徽剑“你觉得中国最大的黑客是谁?”我当时回答“我也许不好说中国技术最牛的黑客是谁,但是我可以肯定周鸿祎是商业上最成功、规模最大的黑客。别的黑客只能赚点小钱,他可以通过病毒等黑客手段赚到以亿来计算的财富”。

当然,时过境迁,我们今天再来评价3721已经有些过时,下面就让我们来看看360的搜索吧。

二、搜索的技术门槛

最原始的搜索,就是建立在数据库基础上的关键字匹配,后来进一步延伸到所谓模糊查询、统计分析、知识发现等系列技术的应用。因为搜索,可以让网民从海量的信息中找到他需要的资源,减少了他挨个去查找的时间,提高了他的使用效率,从而使得今天的网民,在上网的时候,已经无法离开搜索。

很多人把搜索看的神乎其神,其实根本没那么复杂。只要一个会做网页的技术人员、一个懂得存储应用开发的技术人员、一个对C或者C++开发TCP/IP应用比较熟悉的技术人员、一个对索引检索开发熟悉的技术人员,就可以组成一个搜索引擎开发团队。

1、会做网页的,去做跟用户对接的那部分。

2、懂得存储应用开发的技术人员,负责搭建存储系统,一个最简单的方式,就是搭建一批服务器,每个服务器分门别类,比如A组服务器负责存储新闻,B组服务器负责存储娱乐等。再细分下去,A1服务器负责存储人民网的,A2服务器负责存储新华网的,B1服务器负责存储李宇春的信息、B2服务器负责存储周杰伦的信息等等,如此类推,

3、对C或者C++开发TCP/IP应用比较熟悉的技术人员,就可以开发一个所谓“网络蜘蛛”的爬虫程序,其实说白了就是一个“离线下载”工具,下载下来后,对页面里面的链接进行分析,继续不停找新的来源。

4、对索引检索开发熟悉的技术人员,负责对抓下来的文本做进一步分析,利用单词和短语库,对文本进行分析,按照存储服务器的配置,把不同的信息,存储到对应的服务器里面。同时他还需要和1合作,对于网页上用户提出的查询要求,他要做出文本分析,然后导引到指定服务器上调出相应结果。

以上就是一个搜索引擎的技术的大致体系,当然,实际中的搜索引擎,远比这个复杂。区别就好比钻天猴的烟花和火箭的那么大。但是基本的架构原理还不会变化的。其实我们都知道,很多时候,理论很好明白,但是实际做起来会在细节上面临大量问题。那么这里有哪几个地方会比较难呢?

依照徽剑我对搜索引擎技术差不多十来年的关注,我总结出搜索引擎技术的两大门槛:

第一个门槛:海量的数据搜集和存储,

第二个门槛:搜索结果的优化

下面分别表述:

第一个门槛:海量的数据搜集和存储,因为搜索引擎需要查询大量的网络数据,并且把这些数据抓回爬虫服务器,在做进一步的处理,最后存储在自己的存储系统里面,对于大多数搜索引擎的来说,更多是通用查询,也就是“乱查一气”,你不知道上亿网民会通过你的网页接口,提交什么样的查询关键词。所以你只能尽可能多的搜集各种信息,以备不测。

这这个海量数据的搜集就需要大量的爬虫服务器、还有大量的时候去处理。问题在于不光是搜集过来,这边还得储存,这就需要大量的存储系统,说白了就是需要海量的硬盘。你想想,你要把差不多整个互联网上的各种网站的数据都要抓一部分,甚至全部。这数据量多大可想而知。

第二个门槛:搜索结果的优化,这个就涉及到好几个方面,一是存储系统的数据检索需要做到快捷方便,需要定期对搜索行为做出分析,对于不同热度的查询数据,用不同优先权的缓存服务器来处理。二是对网民查询内容的优化,很多时候,网民在查询时,并不能很好的表达他的意思,所以如何去理解,给出尽可能近似的结果,是非常关键的事情,打个比方,用户搜索张柏芝,也许是要找谢霆锋相关的,也可能是要找跟陈冠希相关的。三是存储时要对网页进行语义分析,如何准确识别一个网页的主要内容,还有这个网页在网络上的价值,比如是不是第一个发布的?是不是有跟类似网页区别的?等等,这些都需要做很复杂的工作。

目前而言,搜索引擎更多集中在文本或者说字符搜索上面,诸如图片识别和语音识别、视频识别,目前都在研究,也取得了一些进展,但是很遗憾,因为识别的效率、成本等原因,短期还无法在非专业领域有多大的应用。所以有关这方面的,这里就不一一赘述。

三、360搜索的基础

百度做搜索引擎已经差不多十年了,在这十年间,百度建立起一个极其庞大的海量数据系统,这个系统,储存了海量的中文互联网上的各种数据,基本上可以认为,百度存储了一个中国互联网的镜像。通过这个数据系统,百度能够为网民提供非常详细、完备的网上数据信息。

那么对照下360,这些年来,360即使有意开发一套自己的搜索引擎系统,充其量也就是开展技术研究,掌握一整套搜索引擎的技术架构,但是360没有办法建立像百度那么庞大的数据系统,因此360搜索检索到的数据是不完善的,或许过几年360能够尽可能接近百度的数据量,但是现在不行。

这种建设不光是时间,还有金钱,徽剑我可以毫不客气地肯定,百度的存储系统的硬件造价,肯定远远超过了360公司的市值。

其次,更为关键的是,百度做了这么多年的搜索引擎,对于中国网民的检索习惯等,有了极其丰富的了解。这种了解,不仅仅是建立在一般的技术优化上面,更多是可以建立一整套完善的人工干预体系。

也许有人不明白为啥需要人工干预,道理很简单,因为计算机无法基于语义分析,而网民使用搜索引擎的时候,是按照他的个人意识来检索的,因此搜索引擎检索出最接近语义的结果,就成了一个非常迫切的任务。因此这个时候,建立在基于统计结果的数据基础上,通过对于数据做出的知识发现,然后再结合人工辅助修正,就可以得出更加完美的结果。

如果有人对上面这段话觉得不好理解,那么大家可以去看看百度和谷歌的搜索结果,你会发现一个有意思的现象,越是精确性的检索关键词例如科技等方面内容,谷歌做的比百度更准确,越是跟社会生活领域接近的内容,百度能够让使用者找到更多相关的有效信息。其实这个现象告诉我们,百度的人工干预远远多于谷歌,徽剑我的定义是:百度是社会学系的,谷歌是数学系的。

以上的优势,360即使高薪聘请顶级搜索引擎开发工程师,他也无法在短期内追上百度。如果说跟百度相比,360的优势在哪里呢?

如果仅仅从搜索的角度看,360的系列软件,特别是浏览器有海量的安装用户,浏览器本身就是互联网的入口,360可以利用浏览器上嵌入的导航页面和搜索框,使得用户默认选择360搜索引擎。这就是360可以骄傲的资本。

除此以外,别无其他。

四、360搜索可能的几种方向

那么360搜索的浏览器优势又会有多大?

很多人都在说,360有浏览器,所以360的搜索肯定可以做的很好,那么徽剑要反问一句,微软还有操作系统呢,那么他的BING做得如何呢?网民使用搜索引擎,其核心在于他能不能通过这个搜索引擎,找到他想找的东西,如果他试过几次,发现找不到或者不是很好找,他就不会用的。就像bing这样所有WINDOWS系统上都装了,但是大多数中国的网民还是不会去用,为啥?答案很简单,因为BING提供内容,无法像百度那样满足普通网民的需求。

那么有人会问360搜索会如何发展呢?徽剑我把看可以分为这几个部分:

第一,利用360浏览器的搜索入口,从而带来巨大的入口数量众所周知,360浏览器在国内目前有较大份额,因此利用浏览器上的导航网址和搜索接口,吸引用户使用默认的360搜索,这个肯定是360的重点发展方向。从目前360搜索推出来的这几天看,也是这样运作的。

第二,调用其他搜索引擎的结果。前面分析了360搜索面临的“累积”门槛,也就是说,因为360缺乏大量的储备网络镜像数据,因此不管360的搜索团队技术水平如何,他们在短期内都会面临无法向用户提供足够的数据困境。因此从技术角度看,最简单的方法就是调用其他搜索引擎的检索结果,就像当初SOSO跟谷歌合作,谷歌为SOSO提供检索数据一样。这几天大家也看到了,360大量调用百度的数据。这种情况必然会导致双方的版权冲突,不排除百度会采取技术手段对360服务器端的爬虫进行屏蔽。

第三,干扰其他搜索引擎的发展,360搜索的发展必然面临其他搜索引擎的竞争,但是短期内360又无法提供足够优质的搜索结果,那么怎么竞争?如同跑步比赛一样,如果你跑不过其他人,你又想拿第一,怎么办?一个最简单的方法,就是让其他人变慢。因为诸如360安全卫士、360防火墙等占据了大量的用户计算机,那么360完全可以对其他搜索引擎的结果展示页面进行“安全”考察,可以采用的方法包括,利用360防火墙,干扰其他搜索引擎的数据包传输;利用360安全卫士,对其他搜索引擎的结果向用户报警,提示“有安全威胁”,从而实现干扰用户的选择。

第四,对于跟其他搜索引擎合作的网站等,采取诸如“提示警告”等方式,干扰用户的选择。这一招跟上面说的第三条做法很像,但是真对的是那些搜索引擎的客户,比如对于百度的付费客户,如果360安全卫士等,在用户检索这些页面时提出警告,从而干扰这些客户的广告行为,试想如果一个广告客户,因为在百度等上面投放广告,网民访问时,频频被提示有“安全威胁”,大多数菜鸟网民会如何选择?

五、综述:

多年前,我就成功预言了360的搜索引擎之路,今天我又对360搜索做出了几项预言吧。

有人问360的搜索未来能做多大?徽剑我的回答是,跟搜狗争老二,但是短期内,只能是老三的位置,不要看这几天的数据,因为360搜索的信息、用户体验等远不搜狗,更不用说百度了。特别是周鸿祎的投机性格,始终让我觉得他不是那种可以把一个产品做到长远的人。

最关键是,我发现今天的360搜索,很多方面已经走上了3721的道路,所不同的是浏览器插件变成了浏览器等,下一步一些像前面说的那些手法,我觉得早晚必然会出来,一旦出来,必然会重蹈3721的覆辙。

原创粉丝点击