Matlab中交叉检验——crossvalind()

来源:互联网 发布:c语言多进程编程 编辑:程序博客网 时间:2024/06/05 15:20

crossvalind是cross-valindation的缩写,意即交叉检验。 常用的形式有:

 

①Indices =crossvalind('Kfold', N, K) 

②[Train, Test] = crossvalind('HoldOut',N, P) 

③[Train, Test] = crossvalind('LeaveMOut',N, M) 

④[Train, Test] = crossvalind('Resubstitution',N, [P,Q])  


①indices =crossvalind('Kfold', N, K): 
该命令返回一个对于N个观察样本的K个fold(意为折,有“层”之类的含义,感觉还是英文意思更形象)的标记(indices)。该标记中含有相同(或者近似相同)比例的1—K的值,将样本分为K个相斥的子集。在K-fold交叉检验中,K-1个fold用来训练,剩下的一个用来测试。此过程循环K次,每次选取不同的fold作为测试集。K的缺省值为5。 使用程序: 
[m n]=size(data); %data为样本集合。每一行为一个观察样本 
indices = crossvalind('Kfold',m,10); %产生10个fold,即indices里有等比例的1-10 
for i=1:10 
test=(indices==i); %逻辑判断,每次循环选取一个fold作为测试集 train=~test; %取test的补集作为训练集,即剩下的9个fold 
data_train=data(trian,:); %以上得到的数都为逻辑值,用与样本集的选取 label_train=label(train,:); %label为样本类别标签,同样选取相应的训练集 data_test=data(test,:); %同理选取测试集的样本和标签 label_test=label(test,:); end 
 
②[Train, Test] = crossvalind('HoldOut',N, P): 
该命令返回一个逻辑值的标记向量,从N个观察样本中随机选取(或近似于)P*N个样本作为测试集。故P应为0-1,缺省值为0.5。 使用程序: 
groups=ismenber(label,1); %label为样本类别标签,生成一个逻辑矩阵groups,1用来逻辑判断筛选 
[train, test] = crossvalind('holdOut',groups); %将groups分类,默认比例1:1,即P=0.5 
 
③[Train, Test] = crossvalind('LeaveMOut',N, M): 

该命令返回一个逻辑值的标记向量,从N个观察样本中随机选取M个样本作为测试集。M的缺省值为1。值得注意的是,LeaveMOut在循环中使用不能保证产生的是互补集合,即每次循环的随机选取是独立的。如果要用互补的话还是使用Kfold命令。 使用程序:

[m,n]=size(data); 
[train,test]=crossvalind('LeaveMOut',m,10) 
svmStruct = svmtrain(data(train,:),groups(train));  classes = svmclassify(svmStruct,data(test,:));  cp=classperf(groups); cr=cp.CorrectRate  


④[Train, Test] = crossvalind('Resubstitution',N, [P,Q]): 
本函数为②的一个特殊情况。当我不想把P*N剩下的部分全部作为训练集的时候使用该函数,用Q指定一个比例,选取Q*N作为训练集。两个集合的选取以最小化交集为原则。

0 0