搜索引擎系统中对博客用户分级的一些思考

来源:互联网 发布:手机淘宝怎么看差评 编辑:程序博客网 时间:2024/04/30 09:39

      博客搜索技术不同于一般意义上的网页搜索,因为博客是每一个人都可以发表的自己的言论和意见,并且每一个人都可以关注其发表言论和意见的地方,而一般意义上的网页则没有具备这种功能。对于搜索引擎而言,全,新,快,准是其四大指标,而每一轮搜索引擎的调度的周期都很长,基本上搜索引擎每天只会调度轮训七次到八次,而且每一次调度并不能够把数据库里面的所有链接都能够调度完成,在有流量限制的情况下,每一轮的调度都只会有少部分优先级比较高的链接能够被调度到,那么剩下优先级次高的链接则不会被调度得到。如果把相应的博客用户链接放到与普通的网页链接一起的库中,那么每一个博客发完一个帖子,必然会导致搜索引擎对其收录时间的延长。对于特别重要的用户,如徐静蕾,潘石屹等人的博客,一般人都希望在他们刚发完一个贴后能够尽快的从搜索引擎搜索到他们发表的内容;那么基于博客的特点,搜索引擎以一种怎样的策略来对其进行抓取呢?以下是几点归纳:

 

       1.建立以抓取博客为主的博客抓取系统,以有别于普通网页抓取的大系统

        对于时效性能要求比较高的抓取,我们一般都比较倾向于建立一个独立的抓取系统,这样每一轮搜索引擎的调度周期都会缩短很多,并且能够更快的去调度每一个用户的博客。

        2.对用户分级,采取一定的策略把用户分为不同的等级。

        由于每一次系统调度的流量有限,那么在流量有限的情况下,肯定要对用户进行不同等级的划分,级别高的用户优先抓取,级别低的用户则放在后面抓取。用户分级的具体算法是什么?需要考虑哪些方面呢?

      

     利用博客中相关条目的链接地址和该条目中的回复链接地址构建了博客线索,通过这些回复链接数来发现重要的博客。采取博客的人链,借鉴PageRank等算法选出重要的博客信息源。L.BellePageRank的算法对Blog条目进行评分,提出了一种基于查询和Blog条目(entry)的对Blog排序的方法。EAdar提出了iRank算法,iRank算法赋予包含源信息(original information)的站点较高等级,且依据不同信息源间引用同一链接的间隔时间赋予存在潜在链接的可能性权值。KFujimura等提出了一种对Blog信息进行排序的“EigenRumor”算法,该算法根据Blog作者的重要性对Blog信息进行加权。而博客服务提供商对博客的评价,多数使用的是RSS订阅数、PageRankAlexaRank、流量、评论/回帖数、TrackBack等,从而提供排名榜、人气榜等来反映博客的影响力,这些方法或指标被广泛应用于博客评价中。

    (1)PageRank

     GooglePageRank值是目前博客评价中最常用的,用来标志网页的等级/重要性。级别从010级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。PageRank算法是著名网络链接分析排序算法。Google就采用PageRank算法的排序技术。接被看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。但PageRank不仅仅看投票数(即链接数),它对投票的页面也进行分析。它认为“重要性高的页面所投的票的评价会更高,而且相应地接受这个页面投票的页面会相对重要。


    (2)AlexaRank

     AlexaRank是常用的访问量统计指标,可以通过在浏览器上安装Alexa Tool-bar进行统计,在很大程度上取决于每天多少访问者。一个博客可以通过SEO、利用插件、或者被浏览者大部分都装Alexa工具条来提高自己的该项指标值。

    (3)HITs算法
     HITS算法同PageRank算法一样也是著名的基于链接分析的网络排序算法。与pageRank不同的是,在HITs中,网页的排序主要考虑两个因素 authorityseore和hubscore,这两个要素之间是相互影响的,并且是递归的。HITS的几个基本假设是:①当一个网页被hub值较高的网页链接,则他就被视为好的anthority网页;②当一个网页链接了许多有好的anthority网页时,则它就被视为好的hub。所以,一个好的hub网页可
能对应更多好的关于某个主题的信息,一个好的authority网页可能对应着某个话题的更好的内容。

 

    (4)EnginRumor算法

       EnginRmor算法是由KoFujimura和Naotorranimoto提出的用于计算虚拟网络社区的的参与者和信息实体的贡献度的方法。在该算法中,参与者可以发表文章,也可以对文章进行评价,文章的好坏是由发文者的权重和评价者的权重共同决定的。该算法是基于以下四种假设的:①经常发好文章的人(发文权威比较高的人)所发的文章是好文章的可能性比较大;②一些比较会评论的人所支持的文章是好文章的可能性比较大;③所发的文章经常是好文章的人被视为是发文权威比较高的人;④支持最后被公认是好文章的人被认为是比较会评论的人。

    (5)RSS(really simple syndication,也叫聚合内容)订阅数

     RSS是在线共享内容的一种简易方式。需要下载和安装一个RSS阅读器,或者使用在线RSS订阅博客来管理这些博客内容。国内比较有名的还是鲜果软件的订阅数,另外还有google的RSS软件的订阅数,通过RSS软件获取到人们对某些用户的订阅数,就可以得出哪些用户是人们普遍关注的哪些用户是人们比较少关注的,对重要的博客用户划分有比较好的指导意义。

 

    (6)评论/回帖数

      回帖率能够反映读者对博客内容的兴趣和共鸣,有影响力的博客总是得到共鸣,所以有很多留言,但一些没有意义甚至不健康的回帖对于博客的评价作用不大。如果评论或回帖数量不多,但质量高,或者作者的影响力很大时也应作为评价参考。

 

     (7)TrackBack

     当人们在访问博客时对博客内容有深层次的理解和独到的看法,并且自己也有相当的兴趣,可以把评论写到自己网站上,然后向刊载原始文章的服务器发送该网页的URL及标题、部分正文、网站名称等信息()。这一过程为“发送TrackBackPing”,通过这种方法,在原始文章的地方就留下了你的评论的URL、标题等部分信息,这样在原始文章中就将你的TrackBack Ping等所有评论都记录了下来。

     (8)PingBack

      “PingBack”的中文正确翻译为“广播”,最先由“3G博客网”提供,是指计算机系统向外部发出引用信息。作者在写作一篇文章的时候,碰巧援引了某博客内容,文章中包含了该博客的链接,该博客会收到Pingback的通知。这个方法使得博客可以追踪什么人链接至他的文章。有一些网志软件,如WordPress,当一篇文章出版的时候,可自动Pingback这篇文章中所有链接的功能。