看到的一些好的结论

来源：互联网发布：淘宝申请售后理由编辑：程序博客网时间：2024/04/19 19:51
1.模式可分性的Cover定理:假设空间不是稠密分布的,将复杂的模式分类问题非线性的投射到高维空间将比投射到低维空间更可能是线性可分的。映射之后可以解决线性不可分的问题。2.内积空间是增添了一个额外的结构的向量空间。这个额外的结构叫做内积，或标量积，或点积。这个增添的结构允许我们谈论向量的角度和长度。内积空间由欧几里得空间抽象而来。内积空间有时也叫做准希尔伯特空间，因为由内积定义的距离完备化之后就会得到一个希尔伯特空间。3.在早期的著作中，内积空间被称作酉空间，但这个词现在已经被淘汰了。在将内积空间称为酉空间的著作中，“内积空间”常指任意维（可数/不可数）的欧几里得空间。4.多核学习方法是当前核机器学习领域的一个新的热点. 核方法是解决非线性模式分析问题的一种有效方法, 但在一些复杂情形下, 由单个核函数构成的核机器并不能满足诸如数据异构或不规则、样本规模巨大、样本不平坦分布等实际的应用。5.全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。其实卷积神经网络里面的全连接层就和普通神经网络里面结构是一样的，都是每一个节点需要所有的其他输入节点，然后做线性变换。其实这里讲的非常好，因为前面的卷积以及池化相当于特征提取的过程，一般有多少核就会有多有输入，而这些都是提取出的特征，通过把这些特征进行组合来得到好的模型。6.dropout层是卷积神经网络里面经常用到的一层，作用是用于防止过拟合。方式是随机去掉（不使用而不是真正去掉）一些神经元。有博客说“消除减弱了神经元节点间的联合适应性，增强了泛化能力”。http://blog.csdn.net/stdcoutzyx/article/details/490224437.相似性检索在各种领域特别是在视频、音频、图像、文本等含有丰富特征信息领域中的应用变得越来越重要。丰富的特征信息一般用高维向量表示，由此相似性检索一般通过K近邻或近似近邻查询来实现.根据LSH的特性，即可将相近（相似）的对象散列到同一个桶之中，则可以对图像、音视频、文本等丰富的高维数据进行分类或聚类.实际上使用的是哈希的方式做的是聚类的事。传统的hash方法目的是达到常数时间的查找，因此对于非重复性要求比较高，也就是对于冲突需要使用有效的方法解决，比如说常用的有每个桶里面装的实际上是链表来保存所有该桶的数据，或者相应的移位方式，具体可以查看数据结构。但是，有一些应用恰好需要这样的相似性，比如说，将原始数据空间中的两个相邻数据点通过相同的映射或投影变换（projection）后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被hash到了同一个桶内。因此，如果我们能够找到这样一些hash functions，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。换句话说，我们通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，显然计算量下降了很多。8.sublinear time就是时间处于线性或者线性以下的时间，比如说log,常数时间等，但是一般sublinear time 算法都使用了一些特定的结构，比如说树形结构来达到降低复杂度的目的。而且一般符合sublinear time的算法都没有使用全部的输入数据。但是得到的结果对于全部数据来说也是一个近似的最优解。局部适用的算法对于全局来说依旧适用称作property testing9.P就是能在多项式时间内解决的问题，NP就是能在多项式时间验证答案正确与否的问题10.标准差是所有值与平均值之间的差值的平方和求平均在开方之后的结果，均方误差是所有测量值与真实值之间的误差平方和求平均之后的结果。两者公式差不多，但是应用的前提却不一样。标准差使用的前提是测量值是无偏差的，物理意义是测量值的偏离程度。但是均方误差的前提是测量结果不一定是正确的，比如说某个称称重，测量了五次结果，但是由于称的问题，造成了测量的结果是有偏差不准确的，所以使用测量值减去真实值求平方和再求平均。其实最小二乘法使用的也是mse，即均方误差。11.k-means只能检测一些线性可分的类，或者说k-means对于一些线性不可分的类的聚类结果比较差，比如说 使用k-means算法，如果k足够大，而且初始哈中心点恰好能初始化一个到红色部分的话，那么能够将外圆以及內圆分开，但是一般情况下，是不能分出类似上面情况的好的结果的。因为，对于距离长短这一个衡量标准来说,实际上就是线性的。而且像核聚类等算法，把空间点映射到高维空间中，使得原来线性不可分的点变得线性可分，实际上最后也是进行线性划分。12.Fuzzy clustering (also referred to as soft clustering) is a form of clustering in which each data point can belong to more than one cluster.模糊聚类的每个点可以属于不止一个类。Membership grades are assigned to each of the data points(tags). These membership grades indicate the degree to which data points belong to each cluster. Thus, points on the edge of a cluster, with lower membership grades, may be in the cluster to a lesser degree than points in the center of cluster.也就是说fuzzy clustering使用一种数据结构可以记录crisp clustring（明确划分聚类）只能属于一个确定的类。

查看原文：http://www.hahaszj.top/mess/%e7%9c%8b%e5%88%b0%e7%9a%84%e4%b8%80%e4%ba%9b%e5%a5%bd%e7%9a%84%e7%bb%93%e8%ae%ba/182
阅读全文
0 0