Rademacher complexity

来源:互联网 发布:react set state 源码 编辑:程序博客网 时间:2024/06/04 18:43

部分参考 CMU 机器学习理论 课程讲义

Rademacher分布,Rademacher变量

n个样本,采用n个σi构成向量σ.

其中Rademacher变量σi i.d.d. 采样于Rademacher分布:P(σi=1)=12,P(σi=1)=12.

向量集合的Rademacher复杂度

n个实数组成的向量y={y1,...,yn}Rn
这样的向量集合YRn ,(n维空间的一个集合,相当于|Y| 种 n个样本的标签取值的取法)

n维向量的集合Y的Rademacher复杂度是

R(Y):=Eσ[maxyY(1ni=1nσiyi)].

二分类问题示例

二分类问题,标签域 Y:={1,1}R, 每个样本的标签yiY, n=3个样本的标签yY3, 一共有 |Y|n=23=8 种标签取值可能。
考虑3个样本的8种标签取值可能中的其中4种标签取值:
Y={(1,1,1),(1,1,1),(1,1,1),(1,1,1)}
3个样本即3维σ向量,也有2^3=8种可能,每种取值可能的概率为18
Y的Rademacher复杂度为

R(Y)=k=1818r(k)

其中σ(1)=(1,1,1), … ,σ(8)=(1,1,1),
r(1)=max{13(1,1,1)(1,1,1)T,13(1,1,1)(1,1,1)T,13(1,1,1)(1,1,11)T,13(1,1,1)(1,1,1)T}=13(1,1,1)(1,1,1)T=1

函数族的Rademacher复杂度定义

Q:随机事件,随机变量,事件空间,概率分布…空间

空间X
空间X 上的实值函数族F, 其中每个函数f:X{\cal X}P_{\cal X} R.
按照 PXX 空间i.i.d.采样n个样本得到训练集合X:={x1,x2,...,xn}.

相对于n个样本,函数族F经验Rademacher复杂度

Rn^(X,F):=Eσ[supfF(1ni=1nσif(xi))]

其中Rademacher变量σi i.d.d. 采样于Rademacher分布:P(σi=1)=12,P(σi=1)=12.

函数族FRademacher复杂度

Rn(F):=EPX[Rn^(X,F):X={x1,...,xn},xiPX].

上界部分说的是,给定了样本集合X和Rademacher变量集合σ, 在函数族F的各个函数f中, f(xi)σi 的最大相关性。
相对于σ求期望后的经验Rademacher复杂度度量的是,函数族 F 应用到一个固定的集合X拟合随机噪声的能力(Q 为什么怎么说?)。
相对于采样分布PX的Rademacher复杂度度量的是,函数族FX空间满足PX分布的 所有n个元素的数据集合 上的拟合噪声的能力。

分类问题 模型假设的Rademacher复杂度理解

n个样本的特征集合X={x_1,…,x_n }, 特征空间X,每个样本的特征xiX是个高维向量,这n个样本的标签构成向量 y=(f(x1),...,f(xn)), 如果每个标签m种取值,则n个样本有m^n种标签取值可能。
模型假设类F 考虑这些可能中的一些可能。
n个样本有2^n种 对f的随机加权组合,对每一种随机加权组合,用与这种随机 的内积最大的分类预测假设f。

用+1-1的组合表示随机标签,噪声;用内积表示相似度,拟合程度。
Rademacher复杂度度量的是 模型假设类 与 随机标签的 拟合程度。

Q: Rademacher随机变量只是 +1-1两种取值,这种噪声非常适合二分类问题。如果是多分类问题,或者连续的回归问题,Rademacher复杂度可用吗?有必要用连续的随机变量做噪声吗?

Q: 与VC维的联系与区别,与数据分布相关与否,

原创粉丝点击