应用统计学-简单概念2

来源：互联网发布：armageddon软件编辑：程序博客网时间：2024/06/05 05:13

其他学习：概率模型中的极大似然估计和最大后验估计

http://blog.sina.com.cn/s/blog_4d1865f00100zcwn.html

最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。简单而言，假设我们要统计全国人口的身高，首先假设这个身高服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高，但是可以通过采样，获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布的。

最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

其他学习：EM算法举例

比如说食堂的大师傅炒了一份菜，要等分成两份给两个人吃，显然没有必要拿来天平一点一点的精确的去称分量，最简单的办法是先随意的把菜分到两个碗中，然后观察是否一样多，把比较多的那一份取出一点放到另一个碗中，这个过程一直迭代地执行下去，直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。EM算法就是这样，假设我们知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

直观地理解EM算法，它也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数λ ，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。

其他学习：共轭

如果先验分布和似然函数可以使得先验分布和后验分布有相同的形式，那么就称先验分布与似然函数是共轭的

所以回答文章开头提出的问题：共轭是指的先验分布和似然函数

http://wenku.baidu.com/link?url=IkjqqPvtG-RUn6mKS-V7MuEX0UkLn1tEhui805PuTG-WBg1HtcdIn90e3ZUJX7azhdnKhuo--R0JaTHj_8xDH2BAmQn_Q6HZI80_oatsAhK

其他学习：经典统计学和贝叶斯统计学

其他学习：LSI PLSI LDA

LIBSVM是台湾大学林智仁(LinChih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用；该软件对SVM所涉及的参数调节相对比较少，提供了很多的默认参数，利用这些默认参数可以解决很多问题；并提供了交互检验(Cross Validation)的功能。

潜语义标号（LatentSemantic Index，LSI）是奇异值分解（Singular Value Decomposition，SVD）在文本特征矩阵中应用的产物。从物理意义上讲，每个LSI都是所有原始特征（词）的线性组合，因而具有“潜在”的语义。

http://wenku.baidu.com/link?url=eD3XduRJ8O5P517moeS6G-yijPB3Sx0LQxgon40joOW9lmFnndpYFOUm-STGm3kglX7yBdaUE-DgOdd2T1ZIeR7sBhZZ7Y9i4PfUvHueDLm

网上的一个PPT，讲了LSI,PLSI,LDA以及EM算法的基本思想。

个人理解：LSI 隐性语义索引。在信息检索的复习中遇到过。主要用于对词项文档矩阵进行降维。找出潜在的隐性关系。借助奇异值分解：SVD

PLSI:产生式模型。概率隐性

LDA是非监督学习，隐式Dirichlet分布。刚开始根据Dirichlet分布给出一个大致的分布，然后不断的迭代进行运算。

0 0