数学之美读书笔记(三)

来源:互联网 发布:数据精灵有安卓版吗 编辑:程序博客网 时间:2024/04/30 10:23

Chapter.11如何确定网页和查询内容的相关性

1.      TF-IDF法,利用逆文本频率指数(关键词在总文本中的比例的对数)加权的特定网页关键词词频度量关键词在此特定网页中的相关性

步骤:提取出网页的关键词,然后根据网页的长度对关键词进行归一化。

两个网站间的相似性 = ∑(关键词 * 词频 * 权重)

关键词:如“原子能”,“的”

词频:在进行对比的两个网页中,关键词出现的频率。

权重:关键词在所有网页中出现的概率越低,权重越大。很显然,“原子能”的权重远远大于“的”的权重。

2.      TF-IDF和信息论有密切的关系,可以用信息论进行证明

 

Chapter.12地图和本地搜索(用移动客户观进行的当地搜索)的最基本技术-----有限状态机和动态规划

1.关键技术:卫星定位;地址识别;路径规划

2.有限状态机是一个特殊的有向图,包括一些状态节点和连接这些节点的有向弧(每一条弧上带有状态1到状态2所需的条件),用于地址识别的上下文分析

3.模糊匹配问题的解决总是依靠马尔科夫链

问题描述:输入一串文字,输出该文字对应的准确地址

解决方法:有限状态机

有限状态机方法先为地址建立起有限个状态(市、省、街),然后从第一个状态开始,走到最后一个状态,把经过的状态连接起来,形成有效地址。从一个状态走到下一个状态是有严格条件的。

问题:当遇到错别字,或者地址描述不清时,会在某个状态停止不前,无法进行匹配。

解决方法:基于概率的加权有限状态机,对地址模糊匹配。

 

3.      动态规划:分段分步求解局部最小路径从而达到全程最小路径

问题描述:求出地图上任意两点间的最短距离。

解决方法:

1.   遍历查找:时间复杂度呈指数增长,无法实现

2.   动态规划:在起点A和终点B之间划一条分隔线,假设路程必然会经过线上某一点X,这样的点X的数量是有限个,不妨记为(x1,x2…xn)。将求解全程最短路线化解为求解Min( D(A,xi) + D(xi,B)),其中D表示距离

 

5.加权的有限状态传感器WFST,其每一个状态由输入和输出符号定义,根据输入和输出可能性的不同赋以权重。WFST中的每一条路径就是一个候选的句子,其中概率最大的那条路径就是句子的识别结果。

 

Chapter.13阿米特.辛格博士

1.      先帮助用户解决80%的问题,再慢慢解决剩下的20%问题,是在工业界成功的秘诀之一。简单方案容易解释每一个步骤和方法背后的道理,这样不仅便于除了问题debug,而且容易找到今后改进的目标。

2.      简单哲学,要找到简单有效的方法,靠的是丰富的研究经验,坚持每天分析不好的结果,发现原因。

 

Chapter.14新闻搜索和余弦定理

1.新闻分类原理:先把文字的新闻变成可以计算的一组数字(将新闻转化成成每个词的TF-IDF值的向量),然后再设计一个算法算出任意两篇新闻的相似性

2.向量方向越一致则新闻之间的用此比例越相似,因此余弦定理在新闻搜索中起到了巨大的作用

应用:新闻分类,广告投放

3、大量数据的余弦距离:首先分母不用重复计算,可以预先存储;其次,在计算相似度时,只计算非零元素即可;第三,删除虚词,不仅可提高计算速度,对新闻分类的准确性也大有好处。

4、进行位置加权,出现在文本不同位置的词在分类时的重要性也不相同。

 

Chapter.15 矩阵运算和文本处理中的两个分类问题

1.文本处理的两个分类问题:将文本按主题归类,将词汇表中的字词按意思归类

2.酉矩阵:它和它的共轭矩阵转置相乘等于单位阵

3.矩阵的奇异值分解:Amn=Xmm*Bmn*Ynn,其中X,Y为酉矩阵,B为对角阵

4.奇异值分解分类法相对于余弦定理计算次数大幅降低---计算速度大大加快,但需要一个更大的存储量,且分类结果略显粗糙

问题描述:当有海量数据,需要计算它们两两之间的距离时,计算量巨大,耗时太多。

解决方法:矩阵的奇异值分解方法

奇异值分解方法是把一个大矩阵分解成3个小矩阵的乘积,每个矩阵都有明确的物理含义。分解之后,存储量和计算量提高了3个数量级。

Google提出了奇异值分解的并行算法,极大的提高了算法效率。

原创粉丝点击