【机器学习】(6):参数方法与多元推广

来源:互联网 发布:vscode html自动补全 编辑:程序博客网 时间:2024/05/22 01:56

      今天快速地看了“参数方法”和“多元方法”两章,由于看得比较快,涉及到较多的概率公式,所以并没有都搞明白。但是因为自己更加关注分类的应用,而且主要是算法的应用,因此作为机器学习的第一遍入门,自己就感觉需要的部分进行了重点学习,然后简要整理在下面吧。

1. 最大似然估计

2. 多元数据


一、参数方法:最大似然估计

      当我们想针对某类数据进行假设的时候,往往需要先假设一个模型,比如线性、二次曲线等等,这里面肯定会包含相应的参数。接下来利用训练集来确定这些参数最合适的取值。然而同正常的利用绝对值和方差的损失函数不同,我们还可以利用最大似然估计的方法获得这些参数。

      严格来说,我们有一个独立同分布(iid)的样本,已知概率密度p(x|θ),我们可以定义:

      正常来说我们的思路是通过样本确定参数,然后来预测分类新的样本,最大似然估计相反,将样本的似然看作是样本值已知、参数为自变量的函数。如果样本符合某个参数的分布,那么连续获得N次样本的值恰好是我们现在的样本值的概率应该是最大的,因此合理的参数值应当是使得样本的似然最大的参数。因此我们通过对数求和处理之后,来求解使得似然的对数最大的参数,并且以这个求得的参数来估计正确的的样本分布。

      如果我们有两类问题,我们就用伯努利分布;如果存在K>2个类时,分布拓广为多项分布。


二、多元数据

      多元数据处理的问题是自变量有多个因素的输出问题,此时我们有多个观测向量,因此对于N个样本来说,每个样本都可以看作是一个d维向量。例如对贷款申请做决定时,观测向量是与客户相关的一些信息,包括客户的年龄、婚姻状况、年收入等,并且我们有N个这样的老用户。

      通常,这些变量是相关的。如果它们不相关,就没有必要做多元分析。我们的目标是化简,也就是用相对少的参数汇总大量数据。


Refer:

《机器学习导论》,Ethen Alpaydin(土耳其),机械工业出版社





     


0 0
原创粉丝点击