衡量和测试特征选择方法的稳定性两种方法理解

来源:互联网 发布:手机化妆软件下载 编辑:程序博客网 时间:2024/06/05 20:11

1、样本扰动方法:对一个数据集进行二次抽样,首先从原始数据集中抽取80%相同的样本,然后将其余样本平均分配到两个数据集中。重复采样20次每次维持88.88%(从90%的原始数据集中抽取80%相同的样本,即(80/90)%)重叠比例,接下来计算经过特征选择之后生成的加权基因序列之间的相似性(即重叠比例) 。

2、交叉验证:是指将数据集分成多份或分成相同的(或者越接近越好)几份。前 n-1 份作为学习器的训练集,其中 n 是数据集所分份数,余下的那份则作为测试集。这个过程执行 n 次,因此每份样本子集都会作为测试集进行测试。交叉验证通常用于分类准确率的实验。为了测试算法的稳定性,需要在n-1 份数据集(或者训练集)上进行n次特征选择。

0 0