机器学习算法对数据的要求以及使用的情况
来源:互联网 发布:金山软件成都分公司 编辑:程序博客网 时间:2024/06/05 11:13
1.数据量大于10万采用随机梯度下降,效果不错,大大的节约时间成本
2.数据量小于1万的可以采用kmeans聚类算法,无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。
3.聚类类别数量未知的情况下,数据量小于1万时,采用meanshift或者VBGMM模型,大于1万时,就咩有什么有效的算法
4.聚类算法是建立在没有标记样本的数据,属于无监督模型
5.知道样本的类别标签,小于10万,采用线性SVM分类,没有效果,如果是文本数据,采用朴素贝叶斯,不是采用最近邻分类,最近邻无效,采用SVC或者采用集成分类算法。
6.如果数据量大于10万,采用随机梯度下降,没有效果,采用核函数近似的方法,这些算法属于有监督学习,知道样本类别标签
7.样本数量小于50,需要获取更多的样本,否则算法的效果没有用,也就是说机器学习的算法建立的数据样本规模要大于50
8.上面的是分类问题,下面说一下预测问题
9.预测质量,数据样本大于10万,采用随机梯度下降回归法,数据样本小于10万,并且只有少数特征有效的情况下,采用Lasso,ElasticNet算法。如果不是,采用SVR(线性核函数),岭回归模型(ridge regression),如果无效,采用SVR(非线性核函数),或者集成回归
10.仅仅是数据寻找,可以采用随机PCA,没有效果,数据量小于1万,采用Isomap或者采用普嵌入算法(spectral embedding),乜有效果采用LLE算法,这下算法用于减低维度
11.如果数据量大于1万,采用核函数近似算法降低维度
12如果是预测结构,就没有什么有效的算法了。
阅读全文
0 0
- 机器学习算法对数据的要求以及使用的情况
- CityEngine与ArcGIS对栅格数据的要求情况
- 机器学习决策树算法原理以及用sklearn对决策树算法的应用
- 链家大数据使用到的机器学习算法
- LINUX对机器的要求低?
- 阿里云 机器学习pai的使用数据的使用以及模型的存储
- 机器学习算法的随机数据生成
- 招聘单位对机器学习工作校招的要求总结
- 招聘单位对机器学习工作校招的要求总结
- Bundler算法对原始图片的要求
- Bundler算法对原始图片的要求
- 数据挖掘对聚类分析的要求
- 对tableView的学习情况
- 对机器学习与数据竞赛的一些总结
- 随机梯度下降(Stochastic Gradient Descend, SGD)算法在大规模数据机器学习问题的使用
- 学习c++后对自己的要求
- shell实现对机器内存和CPU使用情况的监控
- 对机器学习的理解
- HTML/CSS速写神器Emmet
- C++中的函数参数
- HashMap与TreeMap
- 闭包 匿名函数的调用 链式作用域 预解析机制
- hadoop运行WordCount.jar
- 机器学习算法对数据的要求以及使用的情况
- 0526 POJ#1088&G2n#C-滑雪
- Android Date、long、String相互转换的工具类
- Spring事务不生效问题汇总
- mysql必知必会学习笔记
- ORACLE数据库SQL语句的执行过程
- PAT--1032. Sharing
- JAVA设计模式(单例模式)
- ThreadLocal线程本地变量