搜索引擎漫谈

来源:互联网 发布:淘宝助理不能一键适配 编辑:程序博客网 时间:2024/04/28 12:15

1,发展历史
鼻祖出现
1990年,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发出Archie。当时,万维网(WorldWideWeb)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
不过,这个网站我没有找到。

群雄并起
94年开始,涌现众多基于互连网的搜索引擎 ,包括 Yahoo , WebCrawler , Lycos , Infoseek , Metacrawler , AltaVista ,HotBot  , Northernlight , 其中Metacrawler 是元搜索引擎。
Yahoo是其中的代表性公司。
从此,搜索引擎开始蓬勃发展。

一超独霸
1998年10月之前,Google只是斯坦福大学(StanfordUniversity)的一个小项目BackRub。1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’tbeevil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。
Google使搜索引擎成为最大的互连网产业, Google 本身也是一个传奇。

中国变数
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(BlitzenProject)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD27.00,代号为BIDU。开盘价USD66.00,以USD122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
充分利用本地化优势没有错。

留给我们的思考
综观搜索引擎的发展历史,有的引领潮流,有的淹没无闻.
尤其是yahoo,令人扼腕.
Google则成就新的传奇.
优秀的文化,与时俱进的精神风貌,规范的管理,精湛的技术,优良的服务,娴熟的资本运做是基业唱青的保障.

2,发展阶段及现状

发展阶段
对于搜索引擎发展的几个阶段、各个阶段在年代上的划分以及各阶段的主要特点,并没有一个统一的说法。大部分人认为,第一代搜索引擎以雅虎为标志,主要依靠人工分拣信息。用分类目录搜索信息;第二代以Google为代表,依靠机器抓取、分析进行网页搜索。对于第三代和第四代搜索引擎,至今还没有明确的划分标准。也有人认为第三代搜索引擎是第一代与第二代搜索引擎的结合。至于第四代搜索引擎,则更是说法不一。

发展阶段1996年2月至1998年12月
这个阶段里研究搜索引擎的期刊论文相对较少,大部分搜索引擎技术处于萌芽阶段。此时各种搜索引擎概念相继出现,如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段,词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。
Yahoo为代表。

发展阶段1999年1月至2001年7月
搜索引擎在第二个阶段里开始迅速发展。最负盛名的搜索引擎当数Google,它在1999年以不可抵挡的势头走向世界。Google的出现带动了新技术PageRank和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、PageRank算法以及Hit算法等如火如荼地展开。人们基本认为Web信息检索开始进入了新一代搜索引擎阶段。
Google为代表。

发展阶段2001年8月之后
第三个阶段里搜索引擎的研究变得非常火热,搜索引擎越来越向智能化、个性化、专业化的方向发展,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分布式、相关反馈、智能代理、查询扩展等高频词的分析,我们可以看出,人工智能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。
Google,biying,baidu为代表。

3,竞争态势

2009年全球搜索市场占有率
谷歌一家独大,搜索次数达766.8亿次,占68%份额。
雅虎以7.8%的市场份额排名第二。
百度 位列第三,市场份额7%。
微软搜索 , Yandex 等十几个搜索引擎分享剩下的17% 。
全球格局来看,欧洲占据32%的搜索市场份额,其次是亚太区的31%、北美的22%。

2009年中国搜索市场占有率
2009年中国搜索引擎市场占有率数字.
Google 的市场份额相比2008年下滑1.8%,仅为18.9%.
百度则从2008年的73.2%增长到76%。
雅虎中国、腾讯SOSO、网易有道、搜狗可以忽略不记。

2010年中国搜索市场规模
2010年中国搜索引擎市场规模为70亿人民币,其中图象搜索大概占10%。
当然啦,就算是700000亿, 跟我们也没有关系,了解下而已。

4,图象搜索

图象搜索是一个非常有潜力的细分市场
图象搜索在Google和baidu的访问量排前三,且增长最快.

两种图象搜索技术
1,基于图象周围的文字信息和网页标签属性,这个也是目前大多数图象搜索引擎采用的技术,实际也是基于文本分词的索引技术.
2,基于图象特征识别(理解)技术,难度较大,也是目前的热点,也叫相似图象搜索.

相似图象搜索情况
1,国外:google,必应和其他几个网站项目.
2,国内这方面发展相对落后,目前上线运行的只有万马搜索引擎.
这个是我08年和几个伙伴搞的,这种系统一个人肯定搞不了,因为包含很多东西,如网络蜘蛛,分词以及其他周边工具.图象特征分析,图象索引,图象检索是我来做.
毕竟没有钱赚,我不要求伙伴提供源代码,甚至用混淆器处理后再提交都可以.
大家都上班,休息时间想起来就敲两下键盘.
希望能够赚点小钱,和伙伴们一起腐败下,上马峦山住几天,就很满足啦!

万马搜索引擎背后的图象理解模型
对前述模型的解释
向上的层次提升,是一个机器理解的过程,预计未来10年一定可以获得突破,并大量应用,比如基于理解的图像压缩,可望获得更高的压缩比;向下的层次降低,是一个机器创作的过程,这个非常困难,显而易见的原因是对于人类的创作质量也没有一个普适的标准,有的创作一个世纪后才获得认可(比如梵高),有的创作很快湮没
图象索引的处理过程
图象分割的效果,见网站或者我的相册。
遗憾的是:
这个图象分割方法是我以前做的.
从前面几张图片,可以看到分割结果相当理想.
但却没有办法完全运用到万马搜索引擎项目.
原因是这个图象分割方法计算量太大,所以只能是采用一个简单的近似,但分割效果显然没有原来的方法理想.
坦白讲,非常郁闷.
万马搜索引擎目前架构
万马搜索引擎期望架构

5,对世界的影响

谷歌事件的震荡波
谷歌事件大家都很关注,这个我觉得非常复杂,不单单是一个经济领域的事件,还是文化,意思形态和不同政治势力之间的碰撞.
谷歌这些大公司已经从所谓的“数字经济”已经向实体经济和政治领域渗透.
从这次经济危机中,人们看到过于关注金融等非实体经济的危害,
那么google等公司也注意到了过于专著信息产业的风险,开始进行多元化发展,比如投资能源产业等.
但无论如何,我觉得谷歌会后悔.

6,趋势和展望
人工智能及自然语言理解,图象理解技术的突破和全面运用。
搜索的准确率大为提高.但也可能减少很多探索的乐趣。

 

原创粉丝点击