《数学之美》(吴军)小记

来源:互联网 发布:mac vim不保存退出 编辑:程序博客网 时间:2024/05/20 18:54

《数学之美》是人民邮电出版社于2012年5月出版的图书,作者吴军,2014年再版。书中将高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。通过具体实例教会读者在解决问题时如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新等。

简评

这本书感觉确实非常好深入浅出,但是据豆瓣网友所说有些学术上的错误与不严谨。因此打消了对整本书的算法做详细整理的念头。这里只对算法的发明者、作用、优势、思想做一些简单的整理。另外这本书作为信息乃至数学建模的入门都是非常不错,对兴趣和热情的培养很有好处。因为这本书不光光讲述了一些相关理论,还将无意中讲述了背后的一些信息学的近代历史与人物。


内容摘要

自然语言处理

绕过对自然语言的理解直接使用统计的方法
统计语言模型 (概率而非语义分析,即出现的概率越大越合理)
弗里德里克 贾里尼克(Frederick Jelinek)
马尔科夫假设(Andrey Markov)任意一个词出现的概率只与他前面的词有关
处理统计中出现的零概率,古德-图灵估计(Goog-Turing Estimate):对于没有观察到的事物,我们从概率的总量分配一个很小的比例给他们。同时按照“越是不可信的统计折扣越多”来调小所有观察到的事件的概率。

中文分词

隐含马尔可夫模型

雅各布森通信率六个要素要素
无监督的训练方法鲍姆-韦尔奇算法(Baum-Welch Algorithm)

信息的度量

香农(Claude Shannon)“通信数学原理”(A Mathematic Theory of Communication)信息熵 相对熵 交叉熵(Kullback-Leibler Divergence)
词频率-逆向文档频率(Term frequency / Inverse Document Frequency, TF-IDF)
信息论,托马斯科弗(Thmas Cover)《信息论基础》(Elements of Information Theory)

图论和网络爬虫

“广度优先搜索”(Breadth-First Search)“深度优先搜索”(DFS)

PageRank

确定网页和查询的相关性(TF-IDF)

有限状态机和动态规划

AT&T实验室的编程工具
寻找最短路径

Google AK-47

阿米特辛格(Amit Singhal),Ascorer
如AK-47一般好的算法应当简单、有效、可靠、易读,而不应当故弄玄虚。

“辛格的这种秘诀,即先帮助解决80%的问题,在慢慢解决剩下20%,是在工业界成功的秘诀。”

余弦定理和新闻的分类

将新闻变成一组64000维(单词表数量)的向量,然后用余弦定理计算他们夹角的余弦。对不同位置的词语进行加权。

矩阵运算和文本处理

利用奇异值分解SVD

信息指纹及其应用

用不长的随机数来表示指纹(伪随机数产生算法(Pseudo-Random Number Generator,PRNG)、梅森旋转算法(Mersenne Twiser))
相似哈希值(Simhas)

搜素引擎反作弊

针对搜索引擎网页排名的作弊(SPAM)
即噪音消除

数学模型

  1. 一个正确的模型应当在形式上是简单的
  2. 一个正确的模型一开始可能还不如一个精雕细啄的错误模型来的准确
  3. 大量准确的数据对研发很重要
  4. 正确的模型也可能受到噪音的干扰,而显得不准确应当找到噪音的根源

最大熵模型

最大熵原理(The Maximum Entropy Principle),说白了就是要保留全部的不确定性,将风险降到最小

迭代算法(Generalized Iterative Scaling)
1. 假定零次迭代的初始模型等概率的均匀分布
2. 用第N次迭代的模型来估计每种信息在训练数据中的分布。如果超过了就变小,否则就变大
3. 重复2直到收敛

拉达皮垂兄弟文艺复兴技术公司(Renaissance Technologies)

拼音输入法

个性化语言模型

自然语言处理教父,米奇马库斯(Mitch Marcus)

自然语言处理,处理顶级人物,追求完美迈克尔柯林斯
极简埃里克布莱尔

布隆过滤器

判断一个元素是否在集合内
先映射随机数在映射成二进制

贝叶斯网络(Belief Netorks),马尔可夫链的扩展

条件随机场,非常灵活用于统计

维特比

高通 CDMA扩频传输 维特比算法
针对篱笆网的有向图

期望最大化算法(Expectation Maxinization Algorithm)上帝算法

机器学习的重要算法

逻辑回归模型(Logistic Regression)

搜索广告Panama
变量范围在+∞、-∞ 而值在0-1 之间

云计算

MapReduce 分治算法(Divide-and-Conquer)将简单的问题分成若干简单的子问题进行解决

计算复杂度

后记

注意信息工程背后的逻辑与理论基础,找到正确的模型而非维护错误的模型甚至于山寨。

”但我更希望做工程的年轻人看到在信息技术行业正确的做事情方法。我刚到Google时,发现Google的一些早期算法根本就没有系统的模型和理论基础{AI??}就是用的词组或者词的二元组凑出来的。这些方法比没有做任何事是好一些,但是几乎没有完善和提高的可能,而且使得程序非常混乱。“

推荐《浪潮之巅》、《从一到无穷大》富有基金 文艺复兴技术公司 吉姆赛蒙斯

0 0
原创粉丝点击