[数学理论]不同分布训练集、验证集、测试集处理

来源:互联网 发布:北京sem优化师 编辑:程序博客网 时间:2024/06/05 06:34

当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。



如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。

假设网上下载的照片数据集大小为200000,而手机拍摄的照片数据集大小为10000。


有两种处理方式:

一种将网上数据和手机数据混合,然后将数据随机分配给训练集、验证集和测试集。这种方式最后应用效果不好,如上图的1图。

另外一种将网上数据作为训练集,并添加部分手机数据作为训练集。剩余手机数据作为验证集和测试集,如上图的2图。从长期来看,这种处理方式能够带来更好的系统性能。