What’s popular的交叉验证模式

来源:互联网 发布:伊思和兰芝哪个好 知乎 编辑:程序博客网 时间:2024/05/20 22:04
 

有很多利用了群众性智慧的机器智能系统是回答 What’s popular 这个问题的,比如:

  • 阅读(Reading)领域:
    • techmeme
    • tweetmeme
    • stumbleupon 
    • iGoogle What's Popular gadget
    • Delicious Popular Bookmarks
    • 玩聚SR 
  • 事件(Event)领域:
  • 趋势(Trend)领域:
    • 搜索引擎搜索词热榜
    • Google Trends:Hot Trends(以天为单位)
    • Twitter自己的Trending Topics侧边栏以及众多第三方的应用,如twopular
    • 玩聚RT 和 玩聚PP 
  • 头条(Headline)领域:
    • popurls
    • alltop

Colorado Balloon Classic - Day 2

 

1、单一测量维度

郑昀认为,多数机器智能是以单一系统的内部数据做测量标准的。

我的文章《Social Media排序算法的四种模式》中提及 Digg 排序算法,拥有华丽无比的众多规则,但无论是投票的速度、投票用户的级别、评论和评分的数量、Bury的数量、用户的Popular Ratio等参数,都还是 Digg 系统内部的数据。

Tweetmeme 拥有高效的追踪Twitter世界热门链接的能力,但它的评价体系还是在围绕着 Twitter 的数据转,虽然体贴的链接分类(内容分类为科技、娱乐、游戏等;链接分类为News、图片和视频)是外部数据的计算结果。

Rssmeme 仅是依据 Google Reader Shared Items 的分享次数。stumbleupon 和 Delicious Popular Bookmarks 都是依据自身系统的收藏次数。

这些足够庞大的系统在互联网成熟期的国度,是完全可以反映 What’s popular 的。

但在中国,由于各个 Social Media 应用用户都不足够多,比如微博客,比如RSS阅读器。即使人数足够多,也只是往往趋同于某一特定气质人群。比如,猫扑的用户气质,天涯社区的用户气质,前校内网、开心网的用户气质,Twitter 中文用户的气质。

这就引发下面要说的问题:

 

2、国内数据少或偏 不足以回答 What’s popular

先强调,还是有一些例外的,如百度贴吧的数据,如果好好挖掘一下,是可以充分反映中国的 Hot Trends、What’s popular 的。

但对于 Social Media 的数据,往往由于中国固有的问题,以至于用户不得不在多个网站(官方和非官方的都要找一两个)流连才能获取足够的资讯和读物,而北美用户基本可以只依赖 Digg 就够了,科技用户只看 Techmeme 就够了。

比如同样模仿 Rssmeme 或 Tweetmeme 做应用,显然数据有严重的偏好,不是科技(而且还只是某一部分科技资讯)就是政治(而且还倾向性强得要命),为广大人民所喜闻乐见的情色都很少。

3、加入其他测量维度 交叉验证

(下面的延伸更偏重于 memeTracker 方向的 Readings Filter ,并不是通用的解决方案。)

为了弥补这一问题,就需要把不同 Social Media 的各种内部数据都当成是一个一个的测量维度,然后交叉验证。或者叫“基于mashup的数据挖掘模式”。

举一个非常简单的例子:

按照我写的《如何测量Google Reader用户的分享活跃度》遍历Google Reader 中文用户,计算他们的Rank值,从而得到来自于RSS阅读器的分享权重,将一少部分分享质量不高、Rank值低的用户摒弃掉后,得到一批可靠的阅读器用户(简称reader A-List)。

按照我写的《来,做一个社会化推荐引擎》遍历Twitter等微博客核心用户的Followers/Followings关系,计算中文微博客用户的Rank,并确立微博客中的一小部分用户为高质量的可靠用户(简称miniblog A-List)。

对 Twitter 进行扫描,获取中文用户都在分享什么链接,简称为 SRCBacks Links。

其他 Social Media 的数据也会算在推荐源内,但由于数据不多,所以不再阐述。

有了这些数据之后,希望 SR 首页(现被维护中)能反映中文世界的 What’s popular ,不管是值得阅读的Readings材料,还是突然暴起流行的笑料八卦,抑或时效性很强的Breaking News。

但由于阅读器的时效性有问题,微博客虽然够快但发链接太容易所以质量不高的链接泛滥,为了综合这些因素,可以如下交叉验证:

  • reader A-List 和 miniblog A-List 的推荐都算作相同权重的一票,并适当参考A-List用户自身的Rank。
  • 票数足够多,就可以进入 SR 首页。
  • 来自A-List的票数有但不足够多,此时如果 SRCBacks Links 的数据中有足够多的微博客链接,也可以推上首页。单独依靠 SRCBacks Links 容易遭致 spammer ,所以必须用A-List 来保证质量。

 

这样,这个信息过滤器既引入了微博客的实时性,又抑制了它的过度泛滥,还参考了Social Media用户在原体系中的活跃度、受欢迎程度等指标,能有效地摒弃质量不高的社会化媒体用户,算法不复杂,最终达到一个较好的过滤效果和效率。