从频率到意义：语义向量空间模型（2）（From Frequency to Meaning: Vector Space Models of Semantics）

来源：互联网发布：监控提示无网络视频编辑：程序博客网时间：2024/05/29 06:37

作者：Peter D. Turney、Patrick Pantel

翻译：华南师范大学-吴玺煜

1.1向量空间模型的动机
VSMs有好几个吸引人的特性。VSMs从给出的语料库里自动抽取知识，因此它们比其他语义的方法需要更少的劳动力，比如手工编辑知识库（knowledge bases）和本体论（译者注：这个说法有失公允，知识库和本体论都有自动抽取的方法）。例如，用于计算英语国家语料库（BNC）的词汇相似性的VSM系统（Rapp，2003）的主要来源，对比用于用于计算词典（比如WordNet或者Roget's Thesaurus）的词汇相似性的非VSM系统（Hirst & St-Onge,，1998； Leacock & Chodrow, 1998； Jarmasz & Szpakowicz，2003)。收集新语言的语料库比建立一个词典更加简单，建立一个词典也经常涉及到收集一个语料库，比如SemCor之于WordNet （Miller, Leacock, Tengi, & Bunker, 1993）。
VSMs在很多领域都表现良好，包括：测量词汇、词组和文章之间的语义相似性。大量搜索引擎使用VSMs去测量查询和文档的相似性（Manning et al., 2008）。测量语义相关性（semantic relatedness）的主要算法用的是VSMs（Pantel & Lin, 2002a; Rapp, 2003; Turney, Littman, Bigham, & Shnayder, 2003）。测量语义关系（semantic relations）的主要算法用的也是VSMs（Lin & Pantel, 2001; Turney, 2006; Nakov & Hearst, 2008）。（2.4节谈论3种类型相似性的不同）
我们对VSMs的兴趣在于它们和分布假设（distributional hypothesis）、相关假设（distributional hypothesis）之间存在暧昧的关系（见2.7节）。分布假设意思是一个词汇出现在相似的上下文里，倾向于拥有相似的意思（Wittgenstein, 1953; Harris, 1954; Weaver, 1955; Firth, 1957; Deerwester, Dumais, Landauer, Furnas, & Harshman, 1990）（译者注：维特根斯坦在《哲学研究》里说过，一个词的意义就是它的用法）。将这个抽象的假设应用到测量意义的相似性时，往往会产生向量、矩阵和高阶张量。VSMs和分布假设之间亲密的关系是我们研究VSMs的强烈动机。
不是所有使用向量和矩阵的算法都能算作向量空间模型。为了我们这次研究，我们把以下内容定义为VSMs的一个属性：在一个VSM里的元素值，必须来源于事件的频率，比如说在给定的文本里某一词汇出现的次数（见2.6节）。举个例子，一个词典或者说一个知识库，往往被看作是一个图，然后这个图很可能被表示成一个邻接矩阵的形式，但这不能说明一个词典是一个VSM，因为，一般而言，邻接矩阵的值不是来源于事件的频率。特意强调事件频率，让多样的VSM统一起来，并明确将VSM和分布假设联系在一起；而且，这排除了其他用矩阵表示的算法的麻烦事。

1.2在AI和认知科学里的向量
向量经常用于AI和认知科学；它们比向量空间模型还要早Salton et al. (1975)。VSM的新奇之处在于使用语料库文本的频率作为发现语义信息的线索。
在机器学习里，一个典型的问题是对已经表征成特征向量（feature vectors） (Mitchell, 1997; Witten & Frank, 2005）的项集（a set of items）进行分类或者聚类。一般来说，这些特征不是来源于事件频率，尽管它们是概率（见4.6节）。举个例子，一个机器学习算法可以用于分类或者聚类文档（Sebastiani, 2002）
协同过滤和推荐系统也使用了向量（Resnick, Iacovou, Suchak, Bergstrom, & Riedl, 1994; Breese, Heckerman, & Kadie, 1998; Linden, Smith, & York, 2003）。在一个典型的推荐系统里，我们有一个人-项（person-item）矩阵，行相当于人（顾客，消费者），列相当于项（产品，卖家），值是人给项的评价（不好，合理，太好）。许多用于项-文档矩阵（见第4章）很好的数学工具，也可以用于人-项矩阵，尽管评价不是来源于事件频率。
在认知科学里，原型理论经常使用了向量。原型理论主要思想是类的某些成员比其他成员更中心（Rosch & Lloyd, 1978; Lakoff, 1987）。例如，robin是鸟类（分类级别）的中心成员（原型的），相比于企鹅是外围的。概念有不同的类别程度（分类级别）。顺理成章，一种把它们形式化的想法就是将概念表示成向量和类是向量的集合（Nosofsky, 1986; Smith, Osherson, Rips, & Keane, 1988）。然而，这些向量是基于数值分数，通过询问人类受试者获得的分数；它们不是基于事件频率。
在其他领域，心理学使用大量的向量用于心理测量，研究心理能力和特征（psychological abilities and traits）的测量方法。通常的实验手段是测试或者问卷，比如说人格测试（personality test）。测试的结果往往被表示成一个对象-项（subject-item）矩阵，行被表示成实验对象（人），列被表示成测试（问卷）里的项（问题）。矩阵的值是相关对象对于相关项的答案（answer）。很多用于向量分析的技术都是从心理测量学里提出来的，比如因子分析（Spearman, 1904）。
在认知科学，潜在语义分析（LSA）（Deerwester et al., 1990; Landauer & Dumais, 1997），语言的多维空间类比（HAL）（Lund, Burgess, & Atchley, 1995; Lund & Burgess, 1996），还有一些最近的研究（Landauer, McNamara, Dennis, & Kintsch, 2007）可以完全归进VSMs的范围里，正如上面的定义，因为这些研究使用了向量空间模型，值是来源于事件频率，比如说在给定的文本里某个词汇出现的次数。认知科学家认为从经验和理论上，都可以相信VSMs，比如LSA和HAL，是人类认知某部分的合理建模（Landauer et al., 2007）。虽然在AI，计算语言学和信息检索，这种合理性不是必要的，但显示了VSMs是一个未来可以研究的方向。

0 0