论文读书笔记-An Empirical Study on Learning to Rank of Tweets

来源:互联网 发布:浪潮软件 编辑:程序博客网 时间:2024/05/22 15:38


本文介绍了如何针对twitter上面的内容也就是tweet进行排序,这里不再是仅按照时间排序,而是依据tweet的一些特征排序。为了确保模型准确,作者先把能考虑的特征都考虑了,然后用特征提取,主成分分析的方法去除一些无用的特征,最后得到一个较好的模型。

 

下面是本文的一些要点:

1、  we find four main criteria for ranking real-time posts. They areposting time, account authority, topic popularity and content relevance. 这里列出了一些实时post的特征(不是仅针对tweet),包括时间,账号的权威性,话题的流行度和文章相关度。

2、  They designed the recommender taking three separate dimensions intoconsideration: content source, topic interest and social voting.这里列出的是之前对tweet进行推荐考虑的一些因素,包括内容来源,话题兴趣度和投票情况。

3、  tweets are usually shorter and more informal than blogs.Furthermore, it does not have the explicit hierarchy structure of newsgroupmessages on forums. In addition, tweets possess many particular characteristicsthat blog and forum do not have.这里列出的是tweet的一些特点,包括缺少像新闻那样的层次化结构,同时具有一些博客论坛上面没有的特殊词汇。

4、  作者采用的方法:Learning to Rank is a data-driven approach which integrates a bag offeatures in the model effectively.这种方法是不断地把特征集成到模型中,如下图所示:


5、特征集的选择,现在有了模型,最重要的是选择特征集了,这里考虑下面几个特征:

1) Content relevance features refer to those features whichdescribe the content relevance between queries and tweets.和内容相关的特征

2) Twitter specific features refer to those features whichrepresent the particular characteristics of tweets, such as retweet count andURLs shared in tweet.twitter自身的一些特征,包括url和转发次数

3) Account authority features refer to those features whichrepresent the influence of authors of the tweets in Twitter.用户账号的一些特点,包括影响力大V等。

下面具体针对这三个特征进行描述:

Content relevance features:

         Okapi BM25: score measures the contentrelevance between query Q and tweet T.衡量查询与tweet之间联系。Length(T)为tweet长度,avg代表平均长度,IDF就是逆文档频率

         Similarity of contents: estimates thepopularity of documents in the corpus.统计语料库中的新闻流行度。


TVi表示Ti的TFIDF向量,TQk代表查询Qk中的tweet集合。

         Length: number of words that a tweetcontains.这个比较简单,就是一个tweet其中包含的单词数目。

 

Twitter specific features:

首先给个表格:


         URL & URL count: tweet中可以包括url,可以假设这是一个二元特征,如果某条tweet其中包括url,那么就为1,否则为0. url count代表语料中这条url出现的次数。

         Retweet count: twitter用户可以转发别人的tweet,对于被转发的tweet,前面一般含有一个RT的标记。Retweet count就代表某条tweet被转播的次数。

         Hash tag score:在tweet中,用户可以插入一些tag,我们针对tweet中出现的tag进行排序,依据是tag出现的频率,查询Qk,tweet Ti,Zk是规则化系数,freq(tagj)为语料中tagj出现的频率。


         Reply: 这为二元特征,1代表这是一条回复的tweet,0就不是。

         OOV: 这个特征用于粗略衡量tweet中的语言质量,包括拼写错误命名实体错误等,最后得到一个衡量tweet质量的值:

 

Account authority features:

Twitter中有三个衡量用户之间关系的因素:follow, retweet, mention. 即关注,转发,提到。一般来说一个用户拥有较多的粉丝、在较多的tweet中被提到,那么这个用户权威度较高;同时如果一个tweet被更多权威用户转发,那这条tweet的技术含量也越高。

我们可以用四个分值来描述用户的权威性:

Follower score:用户粉丝数

Mention score: tweet中一个用户被提到的数目

List score:一个用户在列表中出现的次数

Popularity score:根据转发的关系按照google的Pangerank算法计算出来的流行度值,如下图:


在这里建立一个图来描述用户之间的关系,G(V,E)。 V就代表训练集中的用户,E代表用户之间的联系,如果用户vi发了一条tweet tk,用户vj转发了tk,那么就有一条从vj到vi的边。其他一些因素如下表:


6、实验验证:最后结合了多种模型进行验证,验证方法是选择几个类别进行关键词检索, 看查询结果的准确度如何:


同时已经知道经过统计得到的tweet质量分布如下:


在这样的情况下,用不同模型进行训练得到的对比图如下:


明显考虑多个因素的RankSVM较为准确。进一步进行特征提取,PCA等,这里采用贪心算法:


可以让模型更加准确:


在得到模型之后,我们可以对其中的各个影响因素进行分析,看看它们的重要性:


上图的意思是移除了某种因素得到的模型效果,可以看到移除了URL之后模型效果变得很差,说明URL对于模型影响最大。作者指出原因可能是URL中包含了更多的信息,在查询中具有较高的相关度。

 

7、最后结论:

We find a set of most effective features for tweet ranking.The results of experiments demonstrate that the system using Sum_mention, First_list,Important_follower, length and URL performs best. In particular, whether a tweetcontains a URL is the most effective feature. Additionally,we find in the experiments that the number of times theaccount is listed by other  users is an effectiverepresentation of account authority and performs better than the number  of followers that is widely used in previouswork.翻译过来说就是发现针对tweet排序时,被提到的次数、重要的粉丝、是否包含url这些对排序影响很大。同时发现一个用户被其他用户加入列表的次数要比他的粉丝数目更能反应该用户的权威性。