机器学习算法对数据的要求以及使用的情况

来源：互联网发布：金山软件成都分公司编辑：程序博客网时间：2024/06/05 11:13

1.数据量大于10万采用随机梯度下降，效果不错，大大的节约时间成本

2.数据量小于1万的可以采用kmeans聚类算法，无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。

3.聚类类别数量未知的情况下，数据量小于1万时，采用meanshift或者VBGMM模型，大于1万时，就咩有什么有效的算法

4.聚类算法是建立在没有标记样本的数据，属于无监督模型

5.知道样本的类别标签，小于10万，采用线性SVM分类，没有效果，如果是文本数据，采用朴素贝叶斯，不是采用最近邻分类，最近邻无效，采用SVC或者采用集成分类算法。

6.如果数据量大于10万，采用随机梯度下降，没有效果，采用核函数近似的方法，这些算法属于有监督学习，知道样本类别标签

7.样本数量小于50，需要获取更多的样本，否则算法的效果没有用，也就是说机器学习的算法建立的数据样本规模要大于50

8.上面的是分类问题，下面说一下预测问题

9.预测质量，数据样本大于10万，采用随机梯度下降回归法，数据样本小于10万，并且只有少数特征有效的情况下，采用Lasso，ElasticNet算法。如果不是，采用SVR（线性核函数），岭回归模型（ridge regression），如果无效，采用SVR（非线性核函数），或者集成回归

10.仅仅是数据寻找，可以采用随机PCA，没有效果，数据量小于1万，采用Isomap或者采用普嵌入算法（spectral embedding），乜有效果采用LLE算法，这下算法用于减低维度

11.如果数据量大于1万，采用核函数近似算法降低维度

12如果是预测结构，就没有什么有效的算法了。

阅读全文

0 0