数据科学的未来

来源:互联网 发布:flyme系统升级数据 编辑:程序博客网 时间:2024/04/29 00:18

数据科学的未来

From: Kirk Borne

数据科学的发展日新月异,正深入我们生活的方方面面。数据科学改变了我们探索世界,与世界交互的方式,而且数据科学的算法和应用也在持续发展。我们期待这一趋势继续,因为数据科学对人类产生了日益深刻的影响。在这里我们描述的是数据科学领域中我们参与的未来几年即将出现的一些趋势与应用。

数据科学算法的进步可以追踪那些数据科学家所使用的用来表示他们研究领域的数据结构和数据模型的发展。可以反映这种联系的一个最明显的例子是部署在图形数据库(包含网络数据和语义联系的数据库)中的大规模图分析算法的应用。人们有时候说,“整个世界是一个图”,因此最自然的数据结构不是由行列构成的表,而是由点和边构成的网络图。图形分析方法包括了传统的机器学习方法。
另一个数据科学算法增长的领域是地理空间时间预测分析,能够应用在任何涉及空间位置和时间的数据集,而这包括了我们生活的一切。我们希望在法律执行、气候变化、灾难控制、人口健康,社会变迁等更多领域越来越多地进行这一方法的高级部署。

很明显,更大更快更复杂的数据集需要更快(超快)的分析。我们期盼着利用先进技术优势如量子机器学习、内存数据运算和基于专门设备(GPU等)的机器学习等的先进数据科学算法出现。在这些商业设备中,我们希望开发更多的嵌入式机器学习算法(尤其是深度学习),在数据收集时刻能够执行时间要求严格的数据到洞察的转换。随着物联网(IoT)的出现,包括工业物联网和一切互联网,这一应用场景将会极大丰富。

认知机器学习也取得了新进展,包括开源和开发可配置算法,能够用来探索流式实时数据的全部内容,上下文和语义意义。使用360度情景的能力使其在正确的时间,正确的地点,正确的语境下做出正确的行动-这是认知分析的本质。另一个考察认知分析的方式是,针对某一个对象或种群,算法能够找到你应该问你的数据的正确的问题(这可能不是以传统的方式问的问题)。

数据科学发展的另一个领域,跟特定的数据类型有关的,是非结构化数据,尤其是文本。这种非结构化数据的增长是惊人的,因为在自然语言中有着比表格中数字更多的含义,所以需要比数值型算法更丰富的算法。面向非结构化数据的数据科学新算法将适用于多个方向。自然语言生成将用于将数据点转换为文本,可以用来自动生成数据的故事。结构化数据库生成将文本文档或其他非结构化数据转换为数据点(即将定性数据转换为机器可计算的定量数据)。

所有这些技术进展,加上那些我们想象不到的,将会被引进以支撑我们的新领域。
机器学习即将在未来几年被应用的一些最热门的,最关键的领域有:
数据科学应用领域

  • 网络安全,包括先进的检测、建模、预测和规范分析
  • 医疗,包括基因组学、精密医学、人口健康、医疗交付、医疗数据共享和集成、健康记录挖掘和可穿戴设备分析
  • 物联网,包括传感器分析,智能数据,突发事件报警和响应
  • 客户参与和体验,包括360度的视角,游戏化,及时的个性化
  • 智能 X,其中 X =城市、公路、汽车、输送系统,供应链,和更多
  • 精准 Y,其中Y =医药、农业、采摘、制造,定价,和更多
  • 个性化 Z,其中 Z =营销,广告,医疗,学习,和更多
  • 人力资本(人才)和组织分析
  • 社会公益

    总结:数据时代,深入理解本质,我们大有可为。

原创粉丝点击