论文:Recommendation Based on Contextual Opinions 总结

来源:互联网 发布:淘宝商城网上购物 编辑:程序博客网 时间:2024/05/21 10:33


论文标题:Recommendation Based on Contextual Opinions

论文出处会议期刊):UMAP

论文时间:2014

 

一、 摘要(翻译论文的摘要)

      上下文已经被认为在构建个性化推荐系统上是一个重要的因素。然而,大多数上下文推荐技术主要研究项目水平上的上下文信息建立用户偏好模型,很少致力于探测更多细粒度层面的上下文偏好。所以,在这篇论文中,我们从基于不同上下文权重策略推测出的上下文相关偏好得到的用户评论提出一个上下文推荐算法。上下文相关偏好模型是进一步结合用户独立偏好模型进行推荐的。在两个真实的数据集中的实验结果证明,我们的方法相比以前的工作能够捕捉用户上下文偏好和获得更好的推荐精确性。

 

二、 相关技术(只写相关算法名称及相关解读参考网址)

1. Linear least-square regression method

2. The statistical t-test 

3. Mutual information

4. Information gain

5. Chi-square statistic  (参考论文A comparative study on feature selection in text categorization.)

6. Bootstrapping method(参考论文Latent aspect rating analysis on review text data: a rating regression approach.)

7. Part-of-Speech (POS) tagger1(http://nlp.stanford.edu/software/tagger.shtml)

三、 本文算法(本文提出的算法)

1. 算法1:

1) 名称:Extracting Contextual Opinion Tuples from Consumer Reviews(从消费者的评论中提取上下文意见组)

2) 算法步骤:

      步骤一:Aspect Identification(方向识别)方向识别的任务是在每  一个方面里为了分出相关的术语。我们使用bootstrapping method,这个方法中,基于每一个方面,先手动设定一组关键词。其它相关联的术语使用Chi-square statistic方法测量与设定的关键词的从属关系。定义4个方面Value, Food,Atmosphere, Service, and Location.注意到,只有被POS tagger方法选出的频繁出现的名词和名词短语才能作为一个有效的术语。

      步骤二:Opinion Detection(意见探测)我们使用POS tagger方法从评论中提取形容词,然后通过opinios lexicon找出形容词代表的情感类别。使用一个公式一总结意见表达,

score (s, f) =,f代表出现在评论中的术语,op代表在评论中出现的意见单词。Sentop代表op的情感分(1表示积极-1表示消极)。d (f, op)表示op到f的距离。

    步骤三:Context Extraction(上下文析取),在饭店里,有三个上下文Time, Occasion, and Companion。设定不同上下文属于不同关键词组。例如,companion中有“family”, “friends”,“colleague”, “couple”, and “solo”,进一步,colleague中包括{colleague, business, coworker, boss, etc.}.

    步骤四:Aspect-ContextRelation Construction.(上下文方向相关建设)将评论得到的上下文关联到相关联的方向。A)如果上下文与意见是出现在评论中的同一句的,那么认为他们是关联的。B)如果评论中只包含表达了意见而没有提及上下文,那么这个意见将会与先前出现的最邻近的出现上下文的句子中的上下文进行关联。

3) 用于解决本文的什么问题:在评论中提取上下文意见组

2. 算法2:

1) 名称:Detecting Context-Independent Preferences(探测上下文无关的偏好)

2) 算法步骤:

   步骤一:采用statistical t-test(T检验统计)分析用户的历史数据。将评论看作一个向量,定义,ε代表误差项,在不同方向下代表不同的权重。然后我们选择t检验选择权重,我们将这个权得作为上下文无关的偏好。

3) 用于解决本文的什么问题:探测上下文独立偏好

3. 算法3:

1) 名称:Mutual Information(交互信息)

2) 算法步骤:

   步骤一:交互信息用于计算两个变量,术语与上下文的相互依赖度。

   

p (f)表法出现在评论句子中的概率。

4. 算法4:

1) 名称:Information Gain(信息增益)

2) 算法步骤:

   步骤一:通过信息增益来进行二分类,分出术语与上下文相关和不相关。定义如下:

  


 

代表词汇f没有出现在句子中,代表句子s中包含和上下文相关的词汇f的概率。

5. 算法5:

1) 名称:Chi-Square Statistic(卡方检验)

2) 算法步骤:

   步骤一:通过计算样本分布与卡方分布得到术语与上下文的独立性。定义如下:

 

D1是f出现在评论中与上下文相关的句子中的次数,D2是f出现在评论中与上下文无关句子中的次数,D3是在上下文c中没有f的句子的数,D4是与上下文无关也不包含f的句子的数量。D是所有术语出现在与上下文相关的句子的次数。

6. 算法6:

   名称:Detecting Context-Dependent Preferences(探测上下文相关偏好)

1) 算法步骤:

   步骤一:通过三个不同的方法得到权重后,进一步计算如下:

 

7. 算法7:

1) 名称:Generating Recommendation(生成推荐)

2) 算法步骤:

   步骤一:整合context-independent preferences 和context-dependent preferences,得到评分。

 

 

 

四、 实验

1. 实验数据集:

1)数据集:

a) 名称:TripAdvisor

b) 介绍:相关信息

 

c) 来源:

http://sifaka.cs.uiuc.edu/~wang296/Data/index.html

2)数据集2:yelp

  下载地址:http://www.yelp.com/dataset_challenge

2.评判标准:

   1)评判值:Hit ratio和Mean reciprocal rank

2)相关公式:

 


 

 

3.实验分析(翻译论文部分,提供图表)

 

通过实验:

1)可以得到,关联用户意见与上下文是有意义的。

2)评论中术语在不同的上下文中建立用户偏好是非常重要的值。我们的实验中证实两个提出的方法是表现出色。

0 0
原创粉丝点击