排序技术

来源:互联网 发布:如何在淘宝发布宝贝 编辑:程序博客网 时间:2024/04/29 14:52

PageRank

PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于引用,在B网页中链接了A,相当于B在谈话时提到了 A,如果在CDEF中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。 计算PageRank值的公式:

其中:系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。

由以上公式可以看出三点:

1.         链接指向A的网页越多,A的级别越高。即A的级别和指向A的网页个数成正比,在公式中表示,N越大, A的级别越高;

2.         链接指向A的网页,其网页级别越高, A的级别也越高。即A的级别和指向A的网页自己的网页级别成正比,在公式中表示,网页N级别越高, A的级别也越高;

3.         链接指向A的网页,其链出的个数越多,A的级别越低。即A的级别和指向A的网页自己的网页链出个数成反比,在公式中现实,网页N链出个数越多,A的级别越低。

每个网页有一个PageRank值,这样形成一个巨大的方程组,对这个方程组求解,就能得到每个网页的PageRank值。互联网上有上百亿个网页,那么 这个方程组就有上百亿个未知数,这个方程虽然是有解,但计算毕竟太复杂了,不可能把这所有的页面放在一起去求解的。

总之,PageRank有效地利用了互联网所拥有的庞大链接构造的特性。 从网页A导向网页B的链接,用Google创始人的话讲,是页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性,但Google除了看投票数(链接数)以外,对投票者(链接的页面)也进行分析。「重要性」高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为「重要的物品」。从新浪、雅虎、微软的首页都有我网页的三个链接的话,可能比我在其他网站找三十个链接还强。

 

 

HillTop算法

 

HillTop同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat2001年获得的专利。其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为专家文档,从这些专家文档页面到目标文档的链接决定了被链接网页权重得分的主要部分。

PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中,HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来 提高网页PageRank值的做弊方法。

 

 

锚文本(Anchor Text

 

锚文本实际上就是链接文本。锚文本可以做为锚文本所在的页面的内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定的关系。另一方面,锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容,个人网站上增加Google的链接, 锚文本为搜索引擎。这样通过锚文本本身就能知道,Google是搜索引擎。锚文本对搜索引擎起的作用还表现为可以收集一些搜索引擎不能索引的文件。

由此可见,在网页设计中选择合适的锚文本,会让所在网页和所指向网页的重要程度有所提升。

 

 

页面版式

 

每个网页都有版式,包括标题、字体、标签等等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例,搜索引擎通 /过网络蜘蛛把网页抓取下来后,需要提取里面的正文内容,过滤其他html代码。在提取内容的时候,搜索引擎就可以记录所有版式信息,包括:哪些词是在标题 中出现,哪些词是在正文中出现,哪些词的字体比其他的字体大,哪些词是加粗过,哪些词是用KeyWord标识过的等等。这样在搜索结果中就可以根据这些信 息来确定所搜索的结果和搜索词的相关程度。因此,合理的利用网页的页面版式,会提升网页在搜索结果页的排序位置。

 

 

收费排名

 

应该说收费排名并不属于排序技术(这里指的收费排名也包括竞价排名),而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序。用户可以购买某个关键词的排名,只要向搜索引擎公司交纳一定的费用,就可以让用户的网站排在搜索结果的前几位,按照不同关键词、不同位置、时间长短来定义价格。

 

 

如今,如何提升网页在搜索引擎中的排序,已经形成了一门职业,叫SEO Search Engine Optimization),即搜索引擎优化。SEO是针对搜索引擎排序的技术,通过修改网页(或者网站)结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的,从而提升网页在搜索引擎结果中的排序。

 

 

排序技术的发展趋势

目前的搜索引擎排序算法上还存在两大不足:

1.       没有真正解决相关性。相 关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也 是许多对搜索引擎做弊方法能有效的原因。另外,有些文章中没有出现搜索词,但说的就是和搜索词十分相关的内容,例如搜索恐怖分子,但有网页是介绍本拉 登的一些破坏行动,文中没有出现恐怖分子的子眼,搜索引擎就无法搜索到该网页。表面特征只能治标,不能治本。治本的方法应该是增加语意理解,例如主题 词和关键词的提取,从语意上分析,得出搜索词和网页的相关程度,分析的越准,效果就会越好。

2.    搜索结果的单一化。在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。如何满足这些不同类型的访问者,需要对搜索结果的个性化。国外vivisimo公司就是想解决这个问题,他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。但最理想的结果应该是针对每个访问者,排序结果直接和他们的搜索习惯和意愿有关。搜索体育,对喜欢足球的人应该把足球的相关结果排在前面,对喜 欢篮球的人应该把篮球的相关结果排在前

 
原创粉丝点击