《数学之美》摘录

来源：互联网发布：网络骑士写的小说编辑：程序博客网时间：2024/04/29 00:01

语言多义性产生的原因是：人类无法记住太多的文字；

处理方法，利用上下文消除歧义性。

字母（或者中文的笔画）、文字和数字实际上是对信息编码的不同单位。任何一种语言都是一种编码的方式，而语言的语法规则是编解码的算法。

用基于规则的方式处理自然语言，有以下两个越不过的坎儿。

首先，要想覆盖所有的语句，需要的文法规则太多，而且到后面还会有自相矛盾的情况，这样就还需要说明各个规则特定的使用环境。文法规则数量最后会多到每增加一个新句子，就要加入一些新语法。

其次，即使写出了涵盖所有自然语言现象的语法规则集合，用计算机解析它也还是很慢。

（不同于程序设计语言，是人为设计的上下文无关文法）

统计语言模型：

S = w1, w2 , ..., wn

那么P(S) = P(w1, w2, ..., wn)

=P(w1)*P(w2|w1)*P(w3|w1, w2) *... * P(wn|w1, w2, ..., wn-1)

为了计算这个表达式，需要得到每个条件概率的值，但是当涉及变量太多时，就无法估算了。

马尔可夫做了一个偷懒但颇为有效的假设：任意一个词wi出现的概率，只和它前面的词wi-1有关。（这个称作二元模型）

于是，P(S) = P(w1)*P(w2|w1)*P(w3|w2)*...*P(wn|wn-1)

（工程上，更多的要的是一种实际效果不错的解决问题的方法，而不是学院式的苛求完美的解法）

实现中细节问题：

对于概率为0的情况，我们并不能就此断定它的概率为0，因为我们的训练样本不够大。

训练统计语言模型的艺术就在于解决好统计样本不足时的概率估计问题。

古德-图灵估计：对于没有看见的事件，我们不能认为它发生的概率就是零，因此我们从概率的总量中，分配一个很小的比例给予这些没有看见的事件。这样一来，看见的那些事件的概率总和就要小于1了，因此需要将所有看见的事件的概率調小一点。至于小多少，要根据“越是不可信的统计折扣越多”的方法进行。

拼音输入法

输入法输入汉字的快慢取决于对汉字编码的平均长度，用通俗的话讲，就是击键次数乘以寻找这个键所需的时间。单纯的减少编码长度未必能提高输入速度，因为寻找一个键的时间可能变得更长。提高输入法的效率在于同时优化这两点。

复杂的编码要让人记住，几乎是不可能的，因此这里面的艺术就是如何将编码和汉字的偏旁、笔画或者读音结合，让人记住。双拼和五笔这一代输入法的问题在于减少了每个汉字击键的次数，而忽视了找到每个键的时间。

拼音转汉字的算法：

就是要找到w1，w2... Wn 使得P(w1,w2... Wn|y1,y2...yn)最大。

用“隐含马尔可夫模型”中的独立输出假设和马尔可夫假设，约等于求

∏P(wi|wi-1)*P(yi|wi)，将这个式子取对数同时取反，连乘关系变成加法,就变成了图论中的最短路问题了。

个性化词库：

线性插值模型

确定网页和查询的相关性

1 根据关键词在网页中出现的频率衡量（TF--Term frequency），累加各个关键词在网页中的总词频。一个查询包含n个关键词w1，w2，w3，它们在某个特定网页中的词频分别是TF1，TF2，..., TFn，则这个网页的相关度是TF1 + TF2 + ... + TFn。

问题1：对“的”这样的“停止词”不应考虑。

问题2：更“专业”的关键词的权重应该更高

2. 如果一个关键词只在很少的网页中出现，通过它就容易锁定目标，它的权重也就应该大。假定一个关键词w在Dw个网页中出现过，那么Dw越大，w的权重就越小。由此提出逆文本频率指数（IDF--Inverse Document frequency），它的公式为log(D/Dw)，作为每个关键词的权重。那么，查询和某个网页的相关度公式是：

TF1*IDF1 + TF2*IDF2 + ... + TFn*IDFn

新闻的分类

一、特征向量和余弦定理。统计新闻中所有实词（“的”、“之”等虚词助词不用统计）的TF-IDF，把这些值按照对应的实词在词汇表中的顺序依次排列，就得到一个向量，称为这篇新闻的特征向量。书里认为，如果两个向量的方向一致，说明相应新闻的用词比例基本一致。计算向量的夹角，用到余弦定理。

二、自动生成新闻类别的特征向量：

1. 计算所有新闻之间两两的余弦相似性，把相似性大于一个阈值的新闻合并成一小类。这样n篇新闻就被合并成n1个小类，当然n1 < n

2. 把每个小类中的所有的新闻作为一个整体，计算小类的特征向量，再计算小类之间两两的余弦相似性，然后合并成大一点的小类，假如有n2个，当然n2 < n1

迭代上述过程，直到某一类太大时，这一类里一些新闻之间的形似性就很小了，此时停止迭代。至此，自动分类完成。

三、

1大数据量时余弦的计算需要优化。

2 这种做法忽略了新闻中词出现的位置。显然，出现在标题中的词远远比出现在新闻正文中的重要，文章的开头要比结尾的重要。因此，需要对位置加权。

再谈文本自动分类，期望最大化算法：

一方面今天互联网的各种产品和应用都需要用到这个技术，另一方面，这个技术可以用到几乎所有的分类中，比如用户的分类、词的分类、商品的分类、甚至生物特征和基因的分类。

文本的自收敛分类:

信息指纹（哈希）

判定集合相同

三种方法：1暴力2排序后比较3计算这两个集合的指纹,然后比较

判定集合基本相同

比如判定发垃圾邮件的账户，可以分别从两个账号群发的接收电子邮件地址清单中，按照同样的规则随机挑选几个电子邮件的地址。如果它们的指纹相同，那么很有可能这两个接收的电子邮件单子基本相同。

判断两个网页是否是重复的：找出每个网页中IDF最大的几个词，计算出它们的信息指纹。判断一篇文章是否抄袭另一篇:将每一篇文章切成小的片段，然后对这些片段用上述方法选择特征词的集合，并计算它们的指纹。只要比较这些指纹，就能找出大段相同的文字，最后根据时间先后，找到原创的和抄袭的。

Youtube中判断一个视频是否是另一个视频的盗版。视频的匹配有两个核心技术，关键帧的提取和特征的提取。

0 0