搜索引擎

来源:互联网 发布:c 算法面试题 编辑:程序博客网 时间:2024/05/01 13:50
    搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。


工作原理:
第一步:爬行
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。


第二步:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。


第三步:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
⒈提取文字
⒉中文分词
⒊去停止词
⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
5.正向索引
6.倒排索引
7.链接关系计算
8.特殊文件处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。


第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。


搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:
搜索器:其功能是在互联网中漫游,发现和搜集信息;
索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;
检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。


历史:
互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。


起源:
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 ;由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。


作用:
    搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的 一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,
而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。
⒈从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用;
⒉从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销;
⒊就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节。


商务模式:
    在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。
搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。
AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN ;除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS ;订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。


国内外搜索引擎公司现状:
MSN Search  Microsoft 的 MSN Search, 由 LookSmart 支持,二级查询结果由 Inktomi 提供。 Overture (严格说是PPC搜索引擎) 将顶部的查询结果提供给 MSN. 为对 MSN 成功优化网站,那么必须仔细考虑 LookSmart 和 Inktomi 的排名要求。在某些情况下, Direct Hit 的查询结果也会体现在该搜索引擎上。 


Yahoo  一致公认的最佳搜索引擎之一(严格说是分类目录),它的web查询结果来自Google. 收录在它分类目录中的网站,其查询结果以分类目录的查询结果显示。商业站点收录至分类目录的年费用为299美金,它将用几周到几月的时间才会给您结果,告诉您网站最终是否被收录。 


Google  免费搜索引擎。顶部搜索结果将列入 LookSmart, Yahoo, 及 Open Source Directory.。
Google 非常关注外部链接,如果一个网站有较多质量较好的外部链接,将获得较高的排名。它的 AdWords/AdSelect 也将作为查询结果显示。


AOL Search  从 Google 搜索数据库中获得查询结果。想在 AOL 中获得好的排名应该关注 Google 的排名规则。 


Lycos  该分类目录搜索引擎查询结果来自 Fast/AllTheWeb, Overture 和 Open Source Directory. 


Ask Jeeves  拥有人工编辑分类目录和来自 Teoma 的搜索引擎爬行结果。Overture 作为赞助商,查询结果也将出现在该搜索引擎的结果中。 


LookSmart - Zeal  人工编辑搜索引擎分类目录,支持 MSN 及 Excite等较多的合作伙伴。
当 LookSmart 搜索无果时,由 Inktomi 提供搜索结果。 


Overture  前身 GoTo.com, 严格来说是PPC搜索引擎。它的搜索结果将列入 Yahoo, MSN, Altavista 等搜索引擎。 


Netscape Search  现在 NetScape 的查询结果来自于 Google。


AltaVista   最老的搜索引擎之一,至今仍然在搜索引擎中占有重要地位。它有免费网站登陆及收费网站登陆两种。 


Open Directory  该开放目录是志愿编辑人员预审的搜索引擎目录, 它的查询结果和 NetScape, AOL, Google, Lycos等共享。 


Inktomi  Inktomi 比较特殊,是唯一一个在网站上不提供搜索的搜索引擎,它是真正意思上为搜索引擎提供信息的搜索引擎,比如向 Hotbot, MSN, Overture等。它号称为搜索引擎的搜索引擎。它提供的 Inktomi PrioritySubmit 是网站推广较为经济实惠的方案。
0 0
原创粉丝点击