网络蜘蛛程序的设计与实现（五）HillTop算法

来源：互联网发布：云计算招聘岗位编辑：程序博客网时间：2024/06/05 08:35

HillTop 同样是一项搜索引擎结果排序的专利，是Google的一个工程师Bharat在2001年获得的专利。

其实HillTop算法的指导思想和PageRank的是一致的，都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的，有10个链接都是从“服装”相关的网站链接过来，那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档，从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中， HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。

锚文本（Anchor Text）
锚文本名字听起来难以理解，实际上锚文本就是链接文本。例如，在个人网站上把中央电视台（www.cctv.com）做为新闻频道的链接，访问者通过点击网站上的“新闻频道”就能进入http://www.cctv.com网站，那么“新闻频道”就是中央电视台网站首页的锚文本。

锚文本可以做为锚文本所在的页面的内容的评估。正常来讲，页面中增加的链接都会和页面本身的内容有一定的关系。服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接；另一方面，锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容，个人网站上增加Google的链接，锚文本为 “搜索引擎”。这样通过锚文本本身就能知道，Google是搜索引擎。

锚文本对搜索引擎起的作用还表现为可以收集一些搜索引擎不能索引的文件。例如，网站上增加了一张张曼玉的照片，格式为jpg文件，搜索引擎目前很难索引（一般只处理文本）。若这张照片链接的锚文本为“张曼玉的照片”，那么搜索引擎就能识别这张图片是张曼玉的照片，以后访问者搜索“张曼玉”的时候，这张图片就能被搜索到。
由此可见，在网页设计中选择合适的锚文本，会让所在网页和所指向网页的重要程度有所提升。

页面版式

每个网页都有版式，包括标题、字体、标签等等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例，搜索引擎通过网络蜘蛛把网页抓取下来后，需要提取里面的正文内容，过滤其他html代码。在提取内容的时候，搜索引擎就可以记录所有版式信息，包括：哪些词是在标题中出现，哪些词是在正文中出现，哪些词的字体比其他的字体大，哪些词是加粗过，哪些词是用KeyWord标识过的等等。这样在搜索结果中就可以根据这些信息来确定所搜索的结果和搜索词的相关程度。例如搜索“毛泽东”，假如有两个结果，一篇文章标题是《毛泽东的一生》，另一篇文章的标题是《江青的一生》但内容有提到毛泽东，这时搜索引擎会认为前者比较重要，因为“毛泽东”在标题里出现了。

因此，合理的利用网页的页面版式，会提升网页在搜索结果页的排序位置。

收费排名

应该说收费排名并不属于排序技术（这里指的收费排名也包括竞价排名），而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序，在此也略做说明。

用户可以购买某个关键词的排名，只要向搜索引擎公司交纳一定的费用，就可以让用户的网站排在搜索结果的前几位，按照不同关键词、不同位置、时间长短来定义价格。价格从几千元到几十万元不等（像“六合彩”在3721上的排名费用大多是几十万）。

收费排名一方面给搜索引擎公司带来收益，一方面给企业带来访问量，另外对访问者也有一定好处。因为访问者想找“西服”，企业想卖“西服”，于是出钱让访问者能找到他，这样，买家和卖家能马上见面。但收费排名给访问者带来更多的却是不真实，结果排序已经失去了公正性，有时候还带来大量垃圾。在百度搜索引擎上搜索“星球”，排在第一位的是一家做石墨的公司，排在第二位的居然是“想找星球？上易趣吧！”。真有些让访问者哭笑不得。

当然，对于企业来说，收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如今，如何提升网页在搜索引擎中的排序，已经形成了一门职业，叫SEO （Search Engine Optimization），即搜索引擎优化。SEO是针对搜索引擎排序的技术，通过修改网页（或者网站）结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的，从而提升网页在搜索引擎结果中的排序。