机器学习(数据集的选择)
来源:互联网 发布:天音淘宝复制大师官网 编辑:程序博客网 时间:2024/06/06 10:48
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】
作为学术研究而言,同学们更关注那些最新最酷的算法,反而对于数据集这种事情不太在乎。一来,如果要发表论文,一般数据集都是公开的,别人用什么数据,你也用什么数据,基本上没有选择的余地;二来,除了少部分竞赛之外,一般测试用的数据都不会很大,这些数据对于写文章、做实验来说都足够了,没有必要自己重新做一套。相同的数据,反而更容易凸显不同算法之间的差别。
作为企业,那就不一样了。算法只是占了很小的一部分,大部分工程师的工作都是在找数据、提炼数据、分析数据。对于某些行业来说,一些图片数据甚至是没有办法获得的。比如说,公安部门的人脸数据基本上是不可能给你的,可是你如果想做人脸识别这一块,没有大规模的数据做支撑,是很难保证较高的识别率的。一旦有了很好的数据,提高了识别率之后,你又可以在运行中获得更多的用户数据,这是典型的鸡生蛋、蛋生鸡问题。除了极少数顶级的公司,大部分公司使用的算法都是差不多的,很难说谁比谁更优秀什么的,差别就在于谁掌握了更多的数据,谁就拥有了更大的话语权。
说了这么多,那么用户一般从哪获得数据呢?
1、知名的数据集
比如说iris、mnist数据集,一般大家都知道,也都可以下载得到
2、互联网公司提供的数据
比如阿里天池大数据
3、比赛提供的数据
比如kaggle
4、一些库自带数据,比如sklearn
Python 2.7.6 (default, Oct 26 2016, 20:30:19) [GCC 4.8.4] on linux2Type "help", "copyright", "credits" or "license" for more information.>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> x = iris.data>>> y = iris.target
5、各学校机器学习团队、模式识别团队、计算机视觉团队、语言识别团队、nlp团队自己的数据
6、从各网站用爬虫去获取的数据
7、用户注册的数据、从用户的日志检索出的数据等等
作为学习而言,不管哪种方法,只要有合适的数据就可以。但是作为应用,特别是那些可以帮助我们提高效率的工程应用来说,如何获取数据、怎样检索出特征数据或许才是他们真正考虑的事情。数据、结果稳定性、成本,这才是企业界ml队伍关心的事情。
- 机器学习(数据集的选择)
- 【机器学习】如何根据数据集选择适合的模型
- 根据数据的类型选择机器学习算法(面试)
- 机器学习实战之决策树(2)---选择最好的特征来划分数据集
- [人工智能]机器学习实践中数据和模型的选择
- 面对数据缺失,如何选择合适的机器学习模型?
- 机器学习(5)、数据清洗和特征选择
- 选择机器学习的原因
- 初学者学习机器学习的资料选择
- 机器学习的实现(语言及库的选择)
- Python机器学习库sklearn数据预处理,数据集构建,特征选择
- 机器学习数据集
- 机器学习数据集
- 机器学习数据集
- 机器学习数据集
- 机器学习数据集
- 机器学习-数据集
- 机器学习数据集
- mysql触发器的实例
- UVA
- Google Earth Engine简介
- Codeforces Round #433 C. Planning(贪心)
- HTTP与HTTPS的区别
- 机器学习(数据集的选择)
- 并查集-----hihocoder无间道之并查集
- Python3爬虫之破解图片防盗链
- (CodeForces
- Mac安装NLTK报Uninstalling six-1.4.1错误
- API接口[详情版]
- PHP文件系统
- Python3爬虫之图片防盗链破解
- (CodeForces