数学之美读书笔记(二)

来源:互联网 发布:方文山黄伟文 知乎 编辑:程序博客网 时间:2024/05/01 09:11

Chapter.6信息的度量和作用

1.一条信息的信息量就等于其不确定性(熵)(越是不确定的事物越是要大量信息去说明),以比特为衡量单位;信息是消除不确定性的唯一方法

2.几乎所有自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程

3.合理利用信息,而不是玩弄什么公式和机器学习算法,是做好搜索的关键。

4.信息熵---用信息比特数的先验概率加权和

5.两个随机事件X,Y的互信息为随机事件X的信息与X的Y条件信息之差,即衡量了了解Y的条件能为减少X的不确定性所能提供的信息量。互信息可用于解决词义的二义性。

6.相对熵用来衡量两个取值为正数的函数的相似性,其中:

6.1.两个完全相同的函数相对熵等于零

6.2.相对熵的大小好两个函数的差异成正比

6.3.相对熵可以度量两个随机分布的差异性,但需满足其概率分布或概率密度函数取值大于零

7.相对上的应用:

7.1.衡量两个词 在不同文本中的概率分布以判别它们意思是否相近。

7.2.根据两篇文章中不同词的分布判断它们内容的相似性。

7.3.得到词频率---逆向文档频率(TF-IDF)

 

Chapter.7贾里尼克和现代语言处理

1、小学生和中学生其实没有必要花那么多时间读书,而他们的社会经验、生活能力以及在那时树立起的志向将帮助他们的一生。

2、中学阶段花很多时间比同伴多读的课程,在大学以后用非常短的时间就可以读完,因为在大学阶段,人的理解力要强得多。

3、学习和教育史一个人一辈子的过程,要因为兴趣而读书。

4、书本的内容可以早学,也可以晚学,但是错过了的成长阶段却是无法补回来的。

约翰霍普金斯大学中有世界著名的CLSP实验室,centerfor language and speech processing。

 

Chapter.8布尔代数与搜索引擎的索引

掌握技术的道,而非术,要有积累,分析实验结果,好的和坏的。

1.搜索引擎所用做的工作:自动下载尽可能多的网页,建立快速有效的索引,根据相关性对网页进行公平准确的排序

2.布尔代数---二进制逻辑运算

一个指令周期如果进行32位的bool运算,计算速度可以达到10亿次/秒

香农提出了将所有数学运算(+ -* / ^ 开方)转换成bool运算的方法

3.布尔代数对数学的意义类似量子力学对物理学的意义,它将对世界的认识从连续状态扩展到离散状态

 

Chapter.9图论和网络爬虫

1.离散数学:数理逻辑,集合论,图论,近世代数

2.遍历算法包括:(广度优先算法BFS:走完一个节点的所有弧再继续深入;深度优先算法DFS:一条线走到底再回头寻找没去过的节点)

3.网络爬虫:从任何一个网页出发,用图的遍历算法,自动的访问到每一个网页并把它们存起来。世界上第一个网络爬虫是由麻省理工学院(MIT)的学生马休.格雷(MatthewGray)在 1993年写成的。他给他的程序起了个名字叫“互联网漫游者”("wwwwanderer")。

4.如果一个图能从一个顶点出发,每条边不重复的遍历一遍回到这个顶点,那么每一个顶点的度必须为偶数。

5.握手:下载服务器和网站服务器建立通信的过程

6、广度优先 vs 深度优先?广度优先是理所应当的,爬虫应该先下载各大网站的首页再去下载它的子页,但是广度优先需要较长的握手时间(下载服务器与网站建立通讯的时间),所以广度优先和深度优先之间要做一定的权衡。需要一个调度系统,其中用一个优先级队列存储URL,这种方式来遍历整个互联网,在工程上和BFS更相似。因此,在爬虫中,BFS成分多一些。

7、URL的提取:面对不规则的网站,无法直接从HTML中提取URL

 

Chapter.10pagerank---网页排名技术(加权的民主投票制,用于度量网页质量)

pagerank算法的核心是迭代计算每个网页的权重,然后通过权重的大小对网页排名。

迭代初始时每个网页的权重是一样的,然后通过计算更新每个网页的权重,规则如下:

1、当一个网页被越多的网页引用时,它的权重越大

2、当一个网页的权重越大时,它引用的网页的权重也随之变大

3、当一个网页引用的网页越多时,被它引用的网页获得的权重就越小

如此反复迭代,算法最终会收敛到一个固定的排名。可以用mapreduce工具进行并行计算。

 

1.某个查询的搜索结果排名取决于两组信息:关于网页的质量信息;此查询和每个网页的相关信息

2.如果在矩陣中,多數的元素並沒有資料,稱此矩陣為稀疏矩陣(sparsematrix),由於矩陣在程式中常使用二維陣列表示,二維陣列的大小與使用的記憶體空間成正比,如果多數的元素沒有資料,則會造成記憶體空間的浪費,為 此,必須設計稀疏矩陣的陣列儲存方式,利用較少的記憶體空間儲存完整的矩陣資訊。

原创粉丝点击