Office SharePoint Server 2007 搜索模块的两个“大”问题
来源:互联网 发布:js让手机页面强制横屏 编辑:程序博客网 时间:2024/06/04 19:58
OK,这篇blog算是来给Office SharePoint Server 2007 “揭丑”了,确切来说,是给Office SharePoint Server 2007中的搜索功能模块“揭丑”。其实,这里要说的两个问题很早就已经暴露出来了,但是为啥直到现在才进行“揭丑”行动呢?因为直到现在,我才能确定这两个问题已经有解决之道(或者有望解决),呵呵,否则,仅仅说问题,而不说怎么解决,您不是会更郁闷吗...
先来说第一个问题:不能正确对路径大小写敏感的内容源进行爬网。
Windows操作系统的一个特点就是对文件(或者文件夹)路径的大小写是不敏感的,也就是说,我们在Windows操作系统里面指定一个文件的路径,比如“C:/a.tmp”,如果你使用“c:/A.TMP”也是完全没有问题的。所以,构建在Windows IIS之上的Web应用,基本上对于路径也是大小写不敏感的,比如用户浏览“http://www.microsoft.com/products”和“http://www.microsoft.com/Products”对于服务器而言是一回事。但是这个假设仅仅在Windows平台上才适用,对于非Windows操作系统,它完全有可能对于路径是大小写敏感的,也就是说,对于一个构建在非Windows平台上的Web应用来说,“http://webapp/portal”和“http://webapp/Portal”对于服务器而言可是不一样的。
这似乎和我们平时的使用体验不一样,有人会说,“俺访问俺们公司一个Unix+Apache+Java的Web应用时,输入URL就从来没注意过大小写啊!”嗯,这应该是因为,要么Web服务器就配置成了大小写不敏感,要么Web服务器会自动进行大小写纠错,也就是说,如果你在浏览器中敲入“http://webapp/portal”,这个http访问到了Web服务器之后,Web服务器自动将这个请求导向到“http://webapp/Portal”上。
现在再回到正题上,由于Office SharePoint Server 2007是一个完全基于Windows平台的应用,所以,在当初对它的搜索爬网引擎进行设计时,就设计成了这样:当爬网引擎得到一个URL后,爬网引擎不管3721,就先把这个URL的字母全部转换成小写,然后再去访问它。比如,爬网引擎在爬一个Web应用首页时,得到了首页上的一个链接“http://webapp/News”,那么爬网引擎会直接把这个URL转换成“http://webapp/news”,然后再去访问它。如果这个Web应用恰好就是路径大小写敏感的,那么,嘿嘿,Office SharePoint Server 2007的爬网引擎就抓瞎了...
暂且不论当初为啥要这样设计,但是这的确是一个相当大的问题,因为如果我们需要Office SharePoint Server 2007对一个路径大小写的Web应用进行爬网(其实这样的Web应用数量是不少的),那么Office SharePoint Server 2007除了在日志里面纪录一些错误信息之外(甚至在日志中,这些URL都是全部小写的...),它几乎不能为我们爬任何有用的内容。
值得庆幸的是,现在我们对于这个问题有了解决办法,KB 932619描述了这个问题以及解决方法:安装hotfix 932620和hotfix 932621,然后按照KB 932619中的描述修改注册表就OK了。
第二个问题:不能对基于Forms验证的Web应用进行爬网
现在Office SharePoint Server 2007只能对要么匿名访问、要么基于Windows集成认证的Web应用进行爬网,但是对于大量的基于Forms验证的Web应用,却无能为力。幸运的是,很快微软也会发布相应的hotfix来增加对基于Forms验证的Web应用进行爬网的功能了(发布后我会在blog上告诉大家)。
- Office SharePoint Server 2007 搜索模块的两个“大”问题
- Microsoft Office SharePoint Server 2007 的十大优点
- 安装office sharepoint server 2007遇到的问题
- Office SharePoint Server 2007
- Microsoft Office SharePoint Server 2007 搜索系列文章
- 安装Office SharePoint Server 2007
- 配置 Office SharePoint Server 2007
- 安装Microsoft Office SharePoint Server 2007需要满足的要求
- [转贴]用Office SharePoint Server 2007开发的一些网站
- Microsoft Office SharePoint Server 2007的文件目录结构
- Microsoft Office SharePoint Server 2007的文件目录结构
- 部署Office SharePoint Server 2007的步骤阶段列表
- Microsoft Office SharePoint Server 2007的文件目录结构
- Microsoft Office SharePoint Server 2007的文件目录结构
- Microsoft Office SharePoint Server 2007的文件目录结构
- SharePoint Portal Server 2003的两个小问题
- Microsoft Office SharePoint Server 2007开始研究
- Microsoft Office SharePoint Server 2007 产品概述
- 汉字转化成拼音的源代码
- strtok函数
- 在MOSS中直接嵌入ASP.NET Page
- 项目管理中的(用户)需求变更控制分析
- 程序设计: 猫大叫一声,所有的老鼠都开始逃跑,主人被惊醒。(C#语言)
- Office SharePoint Server 2007 搜索模块的两个“大”问题
- SQL Server培训录像(以及其他好的数据教程的指针)
- 提高员工士气的五个实例
- 打破沙锅--net处理Xml
- 以非泛型方式调用泛型方法
- Dell 1501 上配置Ubuntu6.10的Java开发环境
- 理解 Linux 配置文件
- Vista 下安装 SQL Server 2005
- 做人有悟性 做事求卓越