生不逢时的360搜索

来源：互联网发布：加密软件破解版编辑：程序博客网时间：2024/04/30 12:33

编者按：本文作者徽剑，深圳徽剑网络科技有限公司CEO，雷锋网特约撰稿人。360推搜索，百度股价应声下跌，业界震动，为此作者从4个角度对360搜索进行分析，并做出预言（文章观点不代表雷锋网）。

这篇文章，我尽可能回避专业的技术，尽可能用通俗的语言给大家分析一下360等搜索，如有不当之处，请勿见笑。

一、周鸿祎的搜索情结

军事上可以从一个统帅的性格，来判断他可能的指挥方式。同样，从一个企业的产品、企业运作，我们可以看到一个企业领导人的性格，从而从这个性格又可以进一步推测他下一步可能的行动。

360最近推出了搜索，这个徽剑我在07年的时候就说过，我说周鸿祎早晚还会做搜索，因为他不是那种愿意做最原始的信息贡献的性格，而是喜欢整合资源，或者说投机取巧的人。无论是早期的3721，还是后来奇虎聚合等，都可以看到这点。

周鸿祎其实是有很强的搜索情节的，因为他的第一桶金就来自一款搜索产品—3721，尽管后来这款产品被人评价为流氓软件，但是不可否认一点，那就是在中国互联网普及的阶段，对于大批连com和net是啥都分不清楚的人来说，3721让他们使用熟悉的中文就可以在网上畅游了。

当初3721是这么宣传的：“3721公司提供的中文上网服务――3721“网络实名”，是第三代中文上网方式，用户无需记忆复杂的域名，直接在浏览器地址栏中输入中文名字，就能直达企业网站或者找到企业、产品信息。”但是在网络上3721被称为是最大的流氓软件之一，现已停止运营。

“3721网络实名插件由奇虎公司现任董事长周鸿祎一手创办，它通过地址栏实现中文搜索。2003年11月，雅虎1.2亿美元收购3721公司，该软件更名雅虎助手。2005年10月，阿里巴巴宣布完成对雅虎中国全部资产收购，3721业务随之并入马云手中。2006年，互联网业内掀起“反恶意软件”的热潮，周鸿祎率领360安全卫士成为反恶意软件先锋，曾经由他一手创办的3721软件（雅虎助手）则成了他“围剿”的重点目标之一。当年9月，阿里巴巴宣布投资1亿元继续开发与推广雅虎助手，但随后并未看到有实质的市场举动。”这是网上对3721的一段描述。

3721最大的争议，就在于他的传播方式，还有安装后排斥竞争对手、独占用户电脑的网络查询接口的技术手段。3721虽然给那些菜鸟网民提供了极大的方便，但是对于那些掌握一定技术能力的熟练网民，还有就是被3721所干扰的竞争对手，都会采取各种手段针对3721。从而使得3721在几年后变得越来越被更多的人所排斥。

当年的3721一出来，采用的是利用WINDOWS 98的系统漏洞，用病毒的方法进行传播，在短期内就积累了海量的用户。有人曾经问过徽剑“你觉得中国最大的黑客是谁？”我当时回答“我也许不好说中国技术最牛的黑客是谁，但是我可以肯定周鸿祎是商业上最成功、规模最大的黑客。别的黑客只能赚点小钱，他可以通过病毒等黑客手段赚到以亿来计算的财富”。

当然，时过境迁，我们今天再来评价3721已经有些过时，下面就让我们来看看360的搜索吧。

二、搜索的技术门槛

最原始的搜索，就是建立在数据库基础上的关键字匹配，后来进一步延伸到所谓模糊查询、统计分析、知识发现等系列技术的应用。因为搜索，可以让网民从海量的信息中找到他需要的资源，减少了他挨个去查找的时间，提高了他的使用效率，从而使得今天的网民，在上网的时候，已经无法离开搜索。

很多人把搜索看的神乎其神，其实根本没那么复杂。只要一个会做网页的技术人员、一个懂得存储应用开发的技术人员、一个对C或者C++开发TCP/IP应用比较熟悉的技术人员、一个对索引检索开发熟悉的技术人员，就可以组成一个搜索引擎开发团队。

1、会做网页的，去做跟用户对接的那部分。

2、懂得存储应用开发的技术人员，负责搭建存储系统，一个最简单的方式，就是搭建一批服务器，每个服务器分门别类，比如A组服务器负责存储新闻，B组服务器负责存储娱乐等。再细分下去，A1服务器负责存储人民网的，A2服务器负责存储新华网的，B1服务器负责存储李宇春的信息、B2服务器负责存储周杰伦的信息等等，如此类推，

3、对C或者C++开发TCP/IP应用比较熟悉的技术人员，就可以开发一个所谓“网络蜘蛛”的爬虫程序，其实说白了就是一个“离线下载”工具，下载下来后，对页面里面的链接进行分析，继续不停找新的来源。

4、对索引检索开发熟悉的技术人员，负责对抓下来的文本做进一步分析，利用单词和短语库，对文本进行分析，按照存储服务器的配置，把不同的信息，存储到对应的服务器里面。同时他还需要和1合作，对于网页上用户提出的查询要求，他要做出文本分析，然后导引到指定服务器上调出相应结果。

以上就是一个搜索引擎的技术的大致体系，当然，实际中的搜索引擎，远比这个复杂。区别就好比钻天猴的烟花和火箭的那么大。但是基本的架构原理还不会变化的。其实我们都知道，很多时候，理论很好明白，但是实际做起来会在细节上面临大量问题。那么这里有哪几个地方会比较难呢？

依照徽剑我对搜索引擎技术差不多十来年的关注，我总结出搜索引擎技术的两大门槛：

第一个门槛：海量的数据搜集和存储，

第二个门槛：搜索结果的优化

下面分别表述：

第一个门槛：海量的数据搜集和存储，因为搜索引擎需要查询大量的网络数据，并且把这些数据抓回爬虫服务器，在做进一步的处理，最后存储在自己的存储系统里面，对于大多数搜索引擎的来说，更多是通用查询，也就是“乱查一气”，你不知道上亿网民会通过你的网页接口，提交什么样的查询关键词。所以你只能尽可能多的搜集各种信息，以备不测。

这这个海量数据的搜集就需要大量的爬虫服务器、还有大量的时候去处理。问题在于不光是搜集过来，这边还得储存，这就需要大量的存储系统，说白了就是需要海量的硬盘。你想想，你要把差不多整个互联网上的各种网站的数据都要抓一部分，甚至全部。这数据量多大可想而知。

第二个门槛：搜索结果的优化，这个就涉及到好几个方面，一是存储系统的数据检索需要做到快捷方便，需要定期对搜索行为做出分析，对于不同热度的查询数据，用不同优先权的缓存服务器来处理。二是对网民查询内容的优化，很多时候，网民在查询时，并不能很好的表达他的意思，所以如何去理解，给出尽可能近似的结果，是非常关键的事情，打个比方，用户搜索张柏芝，也许是要找谢霆锋相关的，也可能是要找跟陈冠希相关的。三是存储时要对网页进行语义分析，如何准确识别一个网页的主要内容，还有这个网页在网络上的价值，比如是不是第一个发布的？是不是有跟类似网页区别的？等等，这些都需要做很复杂的工作。

目前而言，搜索引擎更多集中在文本或者说字符搜索上面，诸如图片识别和语音识别、视频识别，目前都在研究，也取得了一些进展，但是很遗憾，因为识别的效率、成本等原因，短期还无法在非专业领域有多大的应用。所以有关这方面的，这里就不一一赘述。

三、360搜索的基础

百度做搜索引擎已经差不多十年了，在这十年间，百度建立起一个极其庞大的海量数据系统，这个系统，储存了海量的中文互联网上的各种数据，基本上可以认为，百度存储了一个中国互联网的镜像。通过这个数据系统，百度能够为网民提供非常详细、完备的网上数据信息。

那么对照下360，这些年来，360即使有意开发一套自己的搜索引擎系统，充其量也就是开展技术研究，掌握一整套搜索引擎的技术架构，但是360没有办法建立像百度那么庞大的数据系统，因此360搜索检索到的数据是不完善的，或许过几年360能够尽可能接近百度的数据量，但是现在不行。

这种建设不光是时间，还有金钱，徽剑我可以毫不客气地肯定，百度的存储系统的硬件造价，肯定远远超过了360公司的市值。

其次，更为关键的是，百度做了这么多年的搜索引擎，对于中国网民的检索习惯等，有了极其丰富的了解。这种了解，不仅仅是建立在一般的技术优化上面，更多是可以建立一整套完善的人工干预体系。

也许有人不明白为啥需要人工干预，道理很简单，因为计算机无法基于语义分析，而网民使用搜索引擎的时候，是按照他的个人意识来检索的，因此搜索引擎检索出最接近语义的结果，就成了一个非常迫切的任务。因此这个时候，建立在基于统计结果的数据基础上，通过对于数据做出的知识发现，然后再结合人工辅助修正，就可以得出更加完美的结果。

如果有人对上面这段话觉得不好理解，那么大家可以去看看百度和谷歌的搜索结果，你会发现一个有意思的现象，越是精确性的检索关键词例如科技等方面内容，谷歌做的比百度更准确，越是跟社会生活领域接近的内容，百度能够让使用者找到更多相关的有效信息。其实这个现象告诉我们，百度的人工干预远远多于谷歌，徽剑我的定义是：百度是社会学系的，谷歌是数学系的。

以上的优势，360即使高薪聘请顶级搜索引擎开发工程师，他也无法在短期内追上百度。如果说跟百度相比，360的优势在哪里呢？

如果仅仅从搜索的角度看，360的系列软件，特别是浏览器有海量的安装用户，浏览器本身就是互联网的入口，360可以利用浏览器上嵌入的导航页面和搜索框，使得用户默认选择360搜索引擎。这就是360可以骄傲的资本。

除此以外，别无其他。

四、360搜索可能的几种方向

那么360搜索的浏览器优势又会有多大?

很多人都在说，360有浏览器，所以360的搜索肯定可以做的很好，那么徽剑要反问一句，微软还有操作系统呢，那么他的BING做得如何呢？网民使用搜索引擎，其核心在于他能不能通过这个搜索引擎，找到他想找的东西，如果他试过几次，发现找不到或者不是很好找，他就不会用的。就像bing这样所有WINDOWS系统上都装了，但是大多数中国的网民还是不会去用，为啥？答案很简单，因为BING提供内容，无法像百度那样满足普通网民的需求。

那么有人会问360搜索会如何发展呢？徽剑我把看可以分为这几个部分：

第一，利用360浏览器的搜索入口，从而带来巨大的入口数量众所周知，360浏览器在国内目前有较大份额，因此利用浏览器上的导航网址和搜索接口，吸引用户使用默认的360搜索，这个肯定是360的重点发展方向。从目前360搜索推出来的这几天看，也是这样运作的。

第二，调用其他搜索引擎的结果。前面分析了360搜索面临的“累积”门槛，也就是说，因为360缺乏大量的储备网络镜像数据，因此不管360的搜索团队技术水平如何，他们在短期内都会面临无法向用户提供足够的数据困境。因此从技术角度看，最简单的方法就是调用其他搜索引擎的检索结果，就像当初SOSO跟谷歌合作，谷歌为SOSO提供检索数据一样。这几天大家也看到了，360大量调用百度的数据。这种情况必然会导致双方的版权冲突，不排除百度会采取技术手段对360服务器端的爬虫进行屏蔽。

第三，干扰其他搜索引擎的发展，360搜索的发展必然面临其他搜索引擎的竞争，但是短期内360又无法提供足够优质的搜索结果，那么怎么竞争？如同跑步比赛一样，如果你跑不过其他人，你又想拿第一，怎么办？一个最简单的方法，就是让其他人变慢。因为诸如360安全卫士、360防火墙等占据了大量的用户计算机，那么360完全可以对其他搜索引擎的结果展示页面进行“安全”考察，可以采用的方法包括，利用360防火墙，干扰其他搜索引擎的数据包传输；利用360安全卫士，对其他搜索引擎的结果向用户报警，提示“有安全威胁”，从而实现干扰用户的选择。

第四，对于跟其他搜索引擎合作的网站等，采取诸如“提示警告”等方式，干扰用户的选择。这一招跟上面说的第三条做法很像，但是真对的是那些搜索引擎的客户，比如对于百度的付费客户，如果360安全卫士等，在用户检索这些页面时提出警告，从而干扰这些客户的广告行为，试想如果一个广告客户，因为在百度等上面投放广告，网民访问时，频频被提示有“安全威胁”，大多数菜鸟网民会如何选择？

五、综述：

多年前，我就成功预言了360的搜索引擎之路，今天我又对360搜索做出了几项预言吧。

有人问360的搜索未来能做多大？徽剑我的回答是，跟搜狗争老二，但是短期内，只能是老三的位置，不要看这几天的数据，因为360搜索的信息、用户体验等远不搜狗，更不用说百度了。特别是周鸿祎的投机性格，始终让我觉得他不是那种可以把一个产品做到长远的人。

最关键是，我发现今天的360搜索，很多方面已经走上了3721的道路，所不同的是浏览器插件变成了浏览器等，下一步一些像前面说的那些手法，我觉得早晚必然会出来，一旦出来，必然会重蹈3721的覆辙。