SharePoint索引器的爬网区别:完全爬网和增量爬网

来源:互联网 发布:淘宝手淘搜索一下爆 编辑:程序博客网 时间:2024/05/29 18:20
SharePoint索引器可以执行两种爬网方式爬网方式来对内容进行提取和索引:完全爬网和增量爬网。请注意,你不能在一个新建的内容源上执行增量爬网,对于新 建的内容源至少要执行一次完全爬网。
注意:爬网程序不会以任何方式更改所在服务器上的文件,恰恰相反,它只是简单地访问及读取所在服务器上的文件,并把这些文件的文本和元数据发送到索引服务 器上。然而,由于爬网程序会读取所在服务器上的内容,承载某些内容源的服务器有可能会更新被爬网文件的最后访问日期。
    通常增量爬网的运行比完全爬网快很多,因为增量爬网只访问上次爬网之后被更新的内容。当然,增量爬网的运行效率还依赖于被爬网的内容源的类型,因为不同的 内容源采用了不同的策略来查找被更新过的内容。
  完全爬网总是列举并索引由内容源定义管理的所有现有内容,这就使得完全爬网的速度远远低于增量爬网的速度。因此,建议尽量使用增量爬网代替完全爬网。在以 下情况下,需要使用完全爬网以使索引保持与内容的同步。     
●    当一个新的托管属性被定义并且被映射到一个或多个已爬网属性时。     
●    当已爬网属性到一个现有托管属性的映射被改变时。     
●    当一个或多个.aspx页面被更新时(.aspx页面被修改后,爬网程序是不能检测到的)。     
●    当添加、修改或删除了一个或多个爬网规则时。     
●    当注册了一个新的文件类型或者移除了一个已存在的文件类型时。     
●    当服务器场中的服务器安装了 service pack后。     
●    当索引由于某些不明原因被破坏后。     当下列情况发生时,增量爬网会自动切换为完全爬网。
●   从来没有执行过对某内容源的完全爬网时。
●    SSP管理人员终止了前面的爬网。     
●    恢复了某个内容数据库后。
     另一个关于完全和增量爬网特性的重要问题是名为“持续传播”(continuous propagation)的概念。这是Office SharePoint Server 2007 中的一个新的功能,它大概的意思就是索引器将在爬网的过程中持续不断地将索引更新传播到查询服务器,从而减少从添加、更新或删除内容开始到更新被反映到搜 索结果中为止的这段时间。 注意:SharePoint Portal Server 2003 的索引器没有实现持续传播的功能,它不会在爬网完全结束之前向查询服务器传递更新过的索引。然而在拥有海量内容的大企业中,爬网操作也许会花费数小时甚至 是数天时间,因此,这些 SharePoint用户在对某些内容做出更改之后,到发现这些更改被体现在搜索结果上,这中间会体验到一个巨大的延迟。
     SSP管理人员可以从内容源菜单中手动触发爬网操作。