谈数学

来源：互联网发布：出租房200兆网络方案编辑：程序博客网时间：2024/06/04 20:04

代数的根本自集合而来，在集合中，对各元素之间的关系引入了“距离”的概念，就称为拓扑，由拓扑结构变为空间，空间即为坐标系，二维欧式几何情况下就是一般直角坐标。多维就变得抽象了。有了空间，就有空间之间的变换，由此产生了线性代数。线性代数就是一个数在不同空间的表达，用生活中的话叫做“一万个读者有一万个哈姆雷特”、“从不同角度看问题”。因为有时候一个角度来做数学分析效果不好，所以要换不同角度，这就是线性代数的根本思想。由此产生的概念就是“基”，我理解成“基本的”意思。因为我要表示一个坐标，我需要一个x轴和一个y轴。这就是两个“基”。由于他俩垂直，就叫“正交基”。提问开始：可以有几个基，基一定要垂直吗？不垂直的话会咋样？

言归正传。

上述过程的起点在于“距离”。

所以数学家先定义了距离的概念：1、距离是>=0的。2、A到B的距离=B到A的距离。3、A到B的距离+B到C的距离>=A到C的距离。

从距离开始引入各种空间。欧式距离就是 (A-B)的平方开根号。还有各种表示距离的方式，球面距离，街区距离，海明距离等等。

数学要解决的一个重要问题就是极限，如何用严谨的话来描述趋近于0，因为0不能做分母，所以用趋近于0来表示。所以对极限的定义，就是任意e>0.存在N>0,当n>N时，有|Xn-a|<e。这么做是为了数学上的严谨，就是说不管好不好理解，麻烦不麻烦，让人找不出这句话的破绽才是最主要的。

所以这个式子被用到很多地方，但是这句话很简单，只要不想太多就行，一想太多这句话先把自己整糊涂了。

比方说咱俩找一个数，看谁找的数小，我说“不管你说什么数，我找的数永远比你的小一点”。不抬杠的话，从字面上讲我肯定赢。不能单纯以现在的数学体系去理解以前的人们，因为最开始只有实数，后来发明的无理数，虚数。很多知识都没有进步到现在这样的情况。所以一些想当然的，不要被带入进来。

说说统计学，我们都有很直观的感受，就是我要想做一个统计，需要很多的人来填答卷。为什么少了不行？需要很多，那多到什么程度？这时候俄罗斯数学家发明了“大数定理”，就是为了说明我需要多大的样本才能得到我想要的统计结果。由这个定理还弄出很多推论。我之前总是觉得这种东西还能算啊。后来学完才知道不能觉得这是不能计算的，这世界有很多未知的规律，不知道不代表不存在。

学过概率论的知道，我们有很多概率分布。均匀分布，二项分布，泊松分布等等。这些是有一定关系的。他们的关系通过大数定理做桥梁，都和高斯分布联系到一起。什么F分布，X分布，卡方分布。

由于概率统计的发展，也随着计算机速度的变快，所以现在深度学习的神经网络很火热。神经网络里有一个贝叶斯神经网络。什么是贝叶斯？首先是个人。贝叶斯的思想就是连起来想问题。比如我饿了，想吃饭，我先要考虑天气，如果天气不好，有可能下雨，也有可能不下雨，如果下雨的话，下大雨我就带伞，小的雨就不带了。我带伞的概率是和前边有关系的。就是这个意思。贝叶斯网络也是说，每个网络节点的概率值是和上一个有关系。

贝叶斯还是很复杂，如果有一百件事，那最后一件事要和前边99件事情有关系，这个太复杂了。所以出来一个很简单的假设，叫隐含马尔科夫模型。这个模型做了一件事，假设最后一件事只和前边的一件事有关系。问题又来了，可不可以和前边两件事有关，三件事有关，等等等等？当然可以，如果都有关系了就是贝叶斯模型。谷歌的机器翻译，之所以厉害，就是用了最后一件事和前边六件事有关系。这个模型。为什么是6件？到这个时候都要凭的时实验结果了。6件和7件比，可能7件更好，但是计算量就变得太大太大。虽然6件事时也不小了。没办法谷歌有那么多服务器。2004年时发明了MapReduce，就是为了解决一台服务器算这种东西时间太长，需要很多很多台一起算。

0 0