机器学习（数据集的选择）

来源：互联网发布：天音淘宝复制大师官网编辑：程序博客网时间：2024/06/06 10:48

作为学术研究而言，同学们更关注那些最新最酷的算法，反而对于数据集这种事情不太在乎。一来，如果要发表论文，一般数据集都是公开的，别人用什么数据，你也用什么数据，基本上没有选择的余地；二来，除了少部分竞赛之外，一般测试用的数据都不会很大，这些数据对于写文章、做实验来说都足够了，没有必要自己重新做一套。相同的数据，反而更容易凸显不同算法之间的差别。

作为企业，那就不一样了。算法只是占了很小的一部分，大部分工程师的工作都是在找数据、提炼数据、分析数据。对于某些行业来说，一些图片数据甚至是没有办法获得的。比如说，公安部门的人脸数据基本上是不可能给你的，可是你如果想做人脸识别这一块，没有大规模的数据做支撑，是很难保证较高的识别率的。一旦有了很好的数据，提高了识别率之后，你又可以在运行中获得更多的用户数据，这是典型的鸡生蛋、蛋生鸡问题。除了极少数顶级的公司，大部分公司使用的算法都是差不多的，很难说谁比谁更优秀什么的，差别就在于谁掌握了更多的数据，谁就拥有了更大的话语权。

说了这么多，那么用户一般从哪获得数据呢？

1、知名的数据集

比如说iris、mnist数据集，一般大家都知道，也都可以下载得到

2、互联网公司提供的数据

比如阿里天池大数据

3、比赛提供的数据

比如kaggle

4、一些库自带数据，比如sklearn

Python 2.7.6 (default, Oct 26 2016, 20:30:19) [GCC 4.8.4] on linux2Type "help", "copyright", "credits" or "license" for more information.>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> x = iris.data>>> y = iris.target

5、各学校机器学习团队、模式识别团队、计算机视觉团队、语言识别团队、nlp团队自己的数据

6、从各网站用爬虫去获取的数据

7、用户注册的数据、从用户的日志检索出的数据等等

作为学习而言，不管哪种方法，只要有合适的数据就可以。但是作为应用，特别是那些可以帮助我们提高效率的工程应用来说，如何获取数据、怎样检索出特征数据或许才是他们真正考虑的事情。数据、结果稳定性、成本，这才是企业界ml队伍关心的事情。

p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo}span.s1 {font-variant-ligatures: no-common-ligatures}

阅读全文

0 0