【机器学习】（6）：参数方法与多元推广

来源：互联网发布：vscode html自动补全编辑：程序博客网时间：2024/05/22 01:56

今天快速地看了“参数方法”和“多元方法”两章，由于看得比较快，涉及到较多的概率公式，所以并没有都搞明白。但是因为自己更加关注分类的应用，而且主要是算法的应用，因此作为机器学习的第一遍入门，自己就感觉需要的部分进行了重点学习，然后简要整理在下面吧。

1. 最大似然估计

2. 多元数据

一、参数方法：最大似然估计

当我们想针对某类数据进行假设的时候，往往需要先假设一个模型，比如线性、二次曲线等等，这里面肯定会包含相应的参数。接下来利用训练集来确定这些参数最合适的取值。然而同正常的利用绝对值和方差的损失函数不同，我们还可以利用最大似然估计的方法获得这些参数。

严格来说，我们有一个独立同分布(iid)的样本，已知概率密度p(x|θ)，我们可以定义：

正常来说我们的思路是通过样本确定参数，然后来预测分类新的样本，最大似然估计相反，将样本的似然看作是样本值已知、参数为自变量的函数。如果样本符合某个参数的分布，那么连续获得N次样本的值恰好是我们现在的样本值的概率应该是最大的，因此合理的参数值应当是使得样本的似然最大的参数。因此我们通过对数求和处理之后，来求解使得似然的对数最大的参数，并且以这个求得的参数来估计正确的的样本分布。

如果我们有两类问题，我们就用伯努利分布；如果存在K>2个类时，分布拓广为多项分布。

二、多元数据

多元数据处理的问题是自变量有多个因素的输出问题，此时我们有多个观测向量，因此对于N个样本来说，每个样本都可以看作是一个d维向量。例如对贷款申请做决定时，观测向量是与客户相关的一些信息，包括客户的年龄、婚姻状况、年收入等，并且我们有N个这样的老用户。

通常，这些变量是相关的。如果它们不相关，就没有必要做多元分析。我们的目标是化简，也就是用相对少的参数汇总大量数据。

Refer：

《机器学习导论》，Ethen Alpaydin（土耳其），机械工业出版社

0 0