机器学习(数据集的选择)

来源:互联网 发布:天音淘宝复制大师官网 编辑:程序博客网 时间:2024/06/06 10:48

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】


    作为学术研究而言,同学们更关注那些最新最酷的算法,反而对于数据集这种事情不太在乎。一来,如果要发表论文,一般数据集都是公开的,别人用什么数据,你也用什么数据,基本上没有选择的余地;二来,除了少部分竞赛之外,一般测试用的数据都不会很大,这些数据对于写文章、做实验来说都足够了,没有必要自己重新做一套。相同的数据,反而更容易凸显不同算法之间的差别。


    作为企业,那就不一样了。算法只是占了很小的一部分,大部分工程师的工作都是在找数据、提炼数据、分析数据。对于某些行业来说,一些图片数据甚至是没有办法获得的。比如说,公安部门的人脸数据基本上是不可能给你的,可是你如果想做人脸识别这一块,没有大规模的数据做支撑,是很难保证较高的识别率的。一旦有了很好的数据,提高了识别率之后,你又可以在运行中获得更多的用户数据,这是典型的鸡生蛋、蛋生鸡问题。除了极少数顶级的公司,大部分公司使用的算法都是差不多的,很难说谁比谁更优秀什么的,差别就在于谁掌握了更多的数据,谁就拥有了更大的话语权。


    说了这么多,那么用户一般从哪获得数据呢?


1、知名的数据集

    比如说iris、mnist数据集,一般大家都知道,也都可以下载得到


2、互联网公司提供的数据

    比如阿里天池大数据


3、比赛提供的数据

    比如kaggle


4、一些库自带数据,比如sklearn

Python 2.7.6 (default, Oct 26 2016, 20:30:19) [GCC 4.8.4] on linux2Type "help", "copyright", "credits" or "license" for more information.>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> x = iris.data>>> y = iris.target

5、各学校机器学习团队、模式识别团队、计算机视觉团队、语言识别团队、nlp团队自己的数据


6、从各网站用爬虫去获取的数据


7、用户注册的数据、从用户的日志检索出的数据等等


    作为学习而言,不管哪种方法,只要有合适的数据就可以。但是作为应用,特别是那些可以帮助我们提高效率的工程应用来说,如何获取数据、怎样检索出特征数据或许才是他们真正考虑的事情。数据、结果稳定性、成本,这才是企业界ml队伍关心的事情。


p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo}span.s1 {font-variant-ligatures: no-common-ligatures}