Strands Awards 3:SentiMetrix & Pluribo

Strands Awards 3:SentiMetrix & Pluribo

接 Strands Awards 2 。

SentiMetrix 是 Strands Awards 的第四名,4 人 team, 他们的 idea 是要打造一套意见分析引擎(opinion analysis engine),通过在互联网上收集用户对某个产品或者某项服务的评论,使用其拥用专利的 SentiGrade™ 技术,对用户评论内容进行观点分析(sentiment analysis),并最终给出一个具备参考价值的综合评价。SentiGrade™ 技术的核心是分析“可以表达意见的词汇”(opinion expressing words),包括,形容词、名词、某些副词组合、特定句式中的动词、以及副词动词词组。

" ... we focused on parts of speech that we called “opinion expressing words”. This class was broad enough not just to include adjectives, but also nouns (e.g. “The scoundrel!”) and certain adverbial combinations.  ... the occurrences of verbs (“He emphasized that ….”), adverb-verb phrases (e.g. “He strongly reiterated that…..”), ... there is a strong correlation between how such terms are used in a document and how readers’ intensity of sentiment on the topic is formed.  "

SentiMetrix 的 demo 需要申请才能看得到,比较麻烦。我这里再介绍一个作同样事情的公司,Pluribo 。得知 Pluribo,是在 RWW 上看到了他们的 PR ,一下子就被吸引住了。当时 Pluribo 网站不知何故居然被 GFWed,我籍出穿墙术才得以成功试用。不过费劲是值得的,我个人把 Pluribo 视为 08 年最具技术含量的创新服务!

试用 Pluribo 的服务非常简单,他提供了一个 google custom search ,外加一个  Firefox extension 。目前,Pluribo 的 extension 只能在 Amazon 上工作,而且仅限于电子产品和小说类书籍。但是,效果非常棒!
我最近准备出手 Nikon D80,Pluribo 给出的 summary 是,“ Reviewers extol the sharp lens, big display, and flash. Get your wallet ready. ”。简单、明了、有效率,大大强化了我的购买决定。

上图中底部 Pluribo 黄色标志所在的深灰色信息条,即为 Pluribo 针对 Nikon D80 给出的 instant summary。

这个柱状图为 Pluribo 给出的 Nikon D80 主要参数的打分与相机类产品平均打分的对比情况。

这个仪表盘为 Pluribo 就“display”一项给出的评价,其抽出的例句相当有说服力。

更具体的分析结果,参见这里 。

Pluribo 也拥有相关的专利技术,具体看起来,应该和 SentiMetrix 的 SentiGrade™ 大同小异。核心分为 3 块,“Feature-based sentiment analysis”,“Intelligent synthesis”,和“Lucid text generation”。

"Feature-based sentiment analysis is the process of scanning text about a topic and extracting a distinct sentiment score for each topic attribute. ... scan text and look for feature phrases occurring in close proximity with sentiment phrases. ... have a good top-down ontology of the features for a given domain and a comprehensive lexicon of the typical feature and sentiment phrases in that domain. ... using a basket of bottom-up statistical techniques, including word frequency, proximity in WordNet, and Bayesian phrase clustering."

我对“Lucid text generation”技术非常感兴趣。Sentiment Analysis 技术本身是对传统文本摘要技术 的一种扩展应用。文本摘要通常的方法是从文章中抽取核心子句,拼接成摘要,比如我个人比较关注的 LexRank 。但 Pluribo 使用“Lucid text generation”技术,能够自动生成语法上非常通顺的句子,这个就非常厉害了。我个人尚不能确定“Lucid text generation”具体是如何运作的,但鉴于其目前仅能工作于电子和小说两类产品,推测其可能是由人工整理的 summary pattern,再根据具体情况进行套用。

整体来讲,Sentiment Analysis 是一项非常有应用价值的技术。在国内互联网领域,电子商务相对来说做得还是比较好的,B2C 有当当和卓越,C2C 有淘宝和新进上线的有啊,市场基础有,也够红火。豆瓣以独立书评服务起家,但到目前为止,其在此方面的应用也还仅停留在“有用/没用”的状况。类似 SentiMetrix 和 Pluribo 这样的独立第三方评论服务,应该还大有 可为。而且关键的一点,SentiMetrix 已经给出了可行的收入模式。

对 Sentiment Analysis 感兴趣的朋友,推荐看一下这个 !据风之谷 介绍,其作者 Bing Liu 为微软 Product Search 的顾问,难怪可以写得如此精彩。

