Rademacher complexity

来源：互联网发布：react set state 源码编辑：程序博客网时间：2024/06/04 18:43

部分参考 CMU 机器学习理论课程讲义

Rademacher分布，Rademacher变量

n个样本，采用n个σi构成向量σ.

其中Rademacher变量σi i.d.d. 采样于Rademacher分布：P(σi=1)=12,P(σi=−1)=12.

向量集合的Rademacher复杂度

n个实数组成的向量y={y1,...,yn}∈Rn
这样的向量集合Y⊂Rn ，(n维空间的一个集合，相当于|Y| 种 n个样本的标签取值的取法)

n维向量的集合Y的Rademacher复杂度是

R (Y) : = E σ [max y \in Y (1 n \sum i = 1 n σ i y i)] .

二分类问题示例

二分类问题，标签域 Y:={−1,1}⊂R, 每个样本的标签yi∈Y, n=3个样本的标签y∈Y3, 一共有 |Y|n=23=8 种标签取值可能。
考虑3个样本的8种标签取值可能中的其中4种标签取值：
Y={(−1,−1,−1),(1,1,1),(−1,−1,1),(−1,1,1)}。
3个样本即3维σ向量，也有2^3=8种可能，每种取值可能的概率为18
则Y的Rademacher复杂度为

R (Y) = \sum k = 1 8 1 8 r (k)

其中

σ(1)=(−1,−1,−1), … ,

σ(8)=(1,1,1),

r (1) = max {1 3 (- 1, - 1, - 1) \cdot (- 1, - 1, - 1) T, 1 3 (- 1, - 1, - 1) \cdot (1, 1, 1) T, 1 3 (- 1, - 1, - 1) \cdot (- 1, - 1, 11) T, 1 3 (- 1, - 1, - 1) \cdot (- 1, 1, 1) T} = 1 3 (- 1, - 1, - 1) \cdot (- 1, - 1, - 1) T = 1

函数族的Rademacher复杂度定义

Q：随机事件，随机变量，事件空间，概率分布…空间

空间X
空间X 上的实值函数族F, 其中每个函数f:X空间{\cal X}上的概率分布P_{\cal X} →R.
按照 PX从X 空间i.i.d.采样n个样本得到训练集合X:={x1,x2,...,xn}.

相对于这n个样本，函数族F 的 经验Rademacher复杂度 是

R n^(X, F) : = E σ [sup f \in F (1 n \sum i = 1 n σ i f (x i))]

其中Rademacher变量

σi i.d.d. 采样于Rademacher分布：

P(σi=1)=12,P(σi=−1)=12.

函数族F 的Rademacher复杂度是

Rn(F):=EPX[Rn^(X,F):X={x1,...,xn},xi∼PX].

上界部分说的是，给定了样本集合X和Rademacher变量集合σ, 在函数族F的各个函数f中, f(xi)与σi 的最大相关性。
相对于σ求期望后的经验Rademacher复杂度度量的是，函数族 F 应用到一个固定的集合X上 拟合随机噪声的能力(Q 为什么怎么说？)。
相对于采样分布PX的Rademacher复杂度度量的是，函数族F 在X空间满足PX分布的所有n个元素的数据集合上的拟合噪声的能力。

分类问题模型假设的Rademacher复杂度理解

n个样本的特征集合X={x_1,…,x_n }, 特征空间X,每个样本的特征xi∈X是个高维向量，这n个样本的标签构成向量 y=(f(x1),...,f(xn)), 如果每个标签m种取值，则n个样本有m^n种标签取值可能。
模型假设类F 考虑这些可能中的一些可能。
n个样本有2^n种对f的随机加权组合，对每一种随机加权组合，用与这种随机的内积最大的分类预测假设f。

用+1-1的组合表示随机标签，噪声；用内积表示相似度，拟合程度。
Rademacher复杂度度量的是模型假设类与随机标签的拟合程度。

Q： Rademacher随机变量只是 +1-1两种取值，这种噪声非常适合二分类问题。如果是多分类问题，或者连续的回归问题，Rademacher复杂度可用吗？有必要用连续的随机变量做噪声吗？

Q：与VC维的联系与区别，与数据分布相关与否，

阅读全文

0 0