Google爬虫、Google机器人、Google蜘蛛、Google Spider

来源:互联网 发布:美工属于什么专业 编辑:程序博客网 时间:2024/05/16 05:08

      我们知道,搜索引擎数据库中的所有网页,都是由Robot程序自动抓取收录的。不过,对于这些所谓的Spider或Robot究竟以怎样的机制在网站内爬行、收录网页则可能很多人就不太清楚了。自本文开始,我们将逐步介绍这方面的一些情况。

  本文我们将首先介绍Google的Robot,包括Google最重要的几种Robot类型、相应的功能以及如何控制它们以保证网站优化效果。

  只要打开您的Web服务器日志文件(为文本文件,使用文本编辑器即可),或者使用类似于AWStats之类日志分析工具,就能看到搜索引擎的robot造访的记录,对Google而言,最活跃的当然非广为人知的Googlebot莫属了,但除了 Googlebot之外,Google还使用其他几种Robot,下面我们逐一说明。

GoogleBot : 服务Google主索引数据库

  根据用途与对网页的索引机制,一般认为,Googlebot可分为deepbot与freshbot两个版本。其中,Deepbot,顾名思义,所从事的任务是尽可能地挖掘网站内的深层页面,至于其能够在网站内爬行多深则取决于很多因素,之中起决定性的是网站的结构是否合理即网站的内部链接机制是否能够有效地让网站成为一个整体,以及网页的PageRank;而Freshbot,则主要针对新鲜的内容与网页,注意,这里所说的新鲜内容 (Fresh Content)并不仅仅指网站内新加入的网页,也包括已经被纳入Google索引数据库但后又进行过修改、更新的。

  注:对于Googlebot分为deepbot和freshbot两类的说法,存在一定的争议,目前还有种说法是:Google近来,尤其是BigDaddy更新后,已经取消了deepbot,相应的功能改由freshbot承担,即只有一种Googlebot。至于是否如此,笔者尚未找到更确凿的证据。

  要让网站内的页面尽可能地被Google索引、收录,前提是要保证Googlebot有兴趣到网站内频繁造访,而要实现这一点,保持网站内容有节奏地更新便极为关键。——当然,更新的内容需要具备一定的质量。此外,网站是否具有一定数量的高质量反相链接也起着决定性作用,即网站的反相链接不仅仅决定网页的PageRank和在SERP中的排名,也决定着Googlebot 对网站的爬行频率及深度。

  不过,要引导Googlebot对网站内容的索引,还有条捷径可走,那便是Google Sitemap,从某种意义上,可以说Google Sitemap是Google的“后门”。Google Sitemap可以让网站建设者通过使用特定格式的sitemap文件,通知Google并指引Google spider收录相应网页。正确地使用Google Sitemap,可以确保让Google spider不遗漏网站内的任何页面,及时地、连续地收录进Google的索引数据库。同时,Google Sitemaps还可以反馈很多有用的信息,如网页诊断,这样,当网页内存在“Broken”链接时我们可以及时发现错误并改正。

MediaBot : 决定Adsense广告的投放

  MediaBot的标识全称为“Mediapartners-Google”,是Google用来分析发布Adsense广告网页内容相关性的 robot。MediaBot收集的网页信息,是Google决定哪些广告将显示在网页上以及这些广告将以什么顺序显示的基础。

  从某种意义上说,MediaBot索引的信息在很多程度上与Googlebot是重合的,因此,一直都有发布AdSense是否有助于网站排名的猜测,在Matt Cutts证实mediabot的索引爬行结果也被 BigDaddy的索引使用后这种怀疑便更显得顺理承章,虽然 Matt Cutts一再强调Adsense发布商不会因MediaBot得到额外的好处,但很多人包括笔者看来,当我们对网站内容改动时,能够让Google索引数据库也得到及时更新本身便是一个极大的优势。

  为保证广告与网站、网页内容的相关性,Google建议最好能够给予MediaBot能够遍历网站所有内容的权力,要实现这一点,需要在 robots.txt中添加类似如下的语句:

User-agent: Mediapartners-Google*
Disallow:

  需要注意的是,网页未被MediaBot收集信息并不意味着Adsense不在网页上显示广告,这种情况下,Google将根据对网站内其他网页内容的分析得出的网站整体相关性而选择广告,——当然,这样的广告可能与网页的具体内容相关性很差。——如果确实找不到可选的广告,才会以 PSA(Public Service Announcements)代替。

  显然,保证MediaBot对网页信息的及时收集对Adsense发布商至关重要。而要实现这一点,同样仍是那些老生常谈:高质量的反相链接、高质量的内容以及提高网站内容更新的频率。

ImageBot : Google图片搜索

  Imagebot的标识全称为“GoogleBot-Image”,从其标识名可以看出,它所服务的对象是Google的图片搜索。一般说来,决定图片出现在Google图片搜索结果中位置的因素主要包括图片文件名、图片的ALT标签、图片周围的文字以及网页Title及Url,详细请参阅Google 图片搜索的优化。

  对于专业图片网站来说Google图片搜索是非常有益的工具,不过,对于一般性网站来说,也许Google图片搜索是一把双刃剑:虽然能得到些许的额外访问量,但是,相对而言,很多人搜索图片往往只是在找他们可以利用的图片,这部分访问用户在耗费大量服务器带宽的同时,对网站能够给予的回报是极低的,至于那些找到图片后直接盗链使用的情况则更要命,IT技术点评最近便面临图片盗链造成大量的服务器带宽被无价值占用的局面,如何防止图片盗链成了很难解决的问题。

  也许,直接禁止ImageBot对网站或者网站的图片目录的索引是个办法。要实现这一点,在robots.txt中加入如下语句:

User-agent: GoogleBot-Image*
Disallow:/images/
或干脆完全拒绝
Disallow:/

Adsbot : 针对Adwords发布商

  AdsBot是Google相对较新的spiders,其标识全称为“AdsBot-Google”,是Google用来分析Adwords广告着陆页(landing pages)质量及与相应关键词关系的Robot。

  我们都知道,Google Adwords采用根据预算竞价的机制,但其中广告着陆页的质量也相当重要,一个高质量的广告着陆页,可以使Adwords发布商能够以较低的价格获得较好的排名,从而出现在更易引起用户注意的网页或网页位置。这也是Google提高其Adwords广告网络质量的努力之一。——这样,才能给用户更具相关性的广告,无论对广告商还是最终服务用户都有着相当重要的意义。

  Google建议,对Adwords广告商而方,如果可能,尽量允许AdsBot可以到达网站内的各个角落,而不是仅仅可以访问AdWords 广告着陆页,以便更有效地把握网站的整体质量。如果不喜欢,同样也可以禁止Adsbot在网站内的活动,不过,这样就要冒因Google无法判断广告的质量从而导致广告费用增加的风险。

  此外,Google使用的Robot还包括Feedfetcher,其标识全称为“Feedfetcher-Google”,不过,Feedfetcher并不算真正意义上的Spider,而只是检索RSS(联合供稿):只有用户明确将 Feedfetcher 添加到他们的 Google 主页或 Google 阅读器后,才会检索。同时,Feedfetcher 不遵守robots.txt的规定。

  总的来说,Google 的Robot的规范性最好,可以方便地使用robots.txt控制或引导其抓取,而要使其您的网站更感兴趣,无非是提供频繁的、高质量的内容更新,同时,辅之以具有相关性的反相链接。

  Tags: Google , Robot , Spider

 

From : http://seo.highdiy.com/index.php/seo/google-bots/