小米云深度学习平台的架构设计与实现

来源：互联网发布：中国纺织品出口数据编辑：程序博客网时间：2024/06/08 05:58
深度学习服务介绍
机器学习与人工智能，相信大家已经耳熟能详，随着大规模标记数据的积累、神经网络算法的成熟以及高性能通用GPU的推广，深度学习逐渐成为计算机专家以及大数据科学家的研究重点。近年来，无论是图像的分类、识别和检测，还是语音生成、自然语言处理，甚至是AI下围棋或者打游戏都基于深度学习有了很大的突破。而随着TensorFlow、Caffe等开源框架的发展，深度学习的门槛变得越来越低，甚至初中生都可以轻易实现一个图像分类或者自动驾驶的神经网络模型，但目前最前沿的成果主要还是出自Google、微软等巨头企业。
Google不仅拥有优秀的人才储备和大数据资源，其得天独厚的基础架构也极大推动了AI业务的发展，得益于内部的大规模集群调度系统Borg，开发者可以快速申请大量GPU资源进行模型训练和上线模型服务，并且通过资源共享和自动调度保证整体资源利用率也很高。Google开源了TensorFlow深度学习框架，让开发者可以在本地轻易地组合MLP、CNN和RNN等模块实现复杂的神经网络模型，但TensorFlow只是一个数值计算库，并不能解决资源隔离、任务调度等问题，将深度学习框架集成到基于云计算的基础架构上将是下一个关键任务。
除了Google、微软，国内的百度也开源了PaddlePaddle分布式计算框架，并且官方集成了Kubernetes等容器调度系统，用户可以基于PaddlePaddle框架实现神经网络模型，同时利用容器的隔离性和Kubernetes的资源共享、自动调度、故障恢复等特性，但平台不能支持更多深度学习框架接口。而亚马逊和腾讯云相继推出了面向开发者的公有云服务，可以同时支持多种主流的开源深度学习框架，阿里、金山和小米也即将推出基于GPU的云深度学习服务，还有无数企业在默默地研发内部的机器学习平台和大数据服务。
云深度学习平台设计
云深度学习平台，我定义为Cloud Machine Learning，就是基于云计算的机器学习和深度学习平台。首先TensorFlow、MXNet是深度学习框架或者深度学习平台，但并不是云深度学习平台，它们虽然可以组成一个分布式计算集群进行模型训练，但需要用户在计算服务器上手动启动和管理进程，并没有云计算中任务隔离、资源共享、自动调度、故障恢复以及按需计费等功能。因此我们需要区分深度学习类库以及深度学习平台之间的关系，而这些类库实现的随机梯度下降和反向传播等算法却是深度学习应用所必须的，这是一种全新的编程范式，需要我们已有的基础架构去支持。
云计算和大数据发展超过了整整十年，在业界催生非常多优秀的开源工具，如实现了类似AWS IaaS功能的OpenStack项目，还有Hadoop、Spark、Hive等大数据存储和处理框架，以及近年很火的Docker、Kubernetes等容器项目，这些都是构建现代云计算服务的基石。这些云服务有共同的特点，例如我们使用HDFS进行数据存储，用户不需要手动申请物理资源就可以做到开箱即用，用户数据保存在几乎无限制的公共资源池中，并且通过租户隔离保证数据安全，集群在节点故障或者水平扩容时自动触发Failover且不会影响用户业务。虽然Spark通过MLib接口提供部分机器学习算法功能，但绝不能替代TensorFlow、Caffe等深度学习框架的作用，因此我们仍需要实现Cloud Machine Learning服务，并且确保实现云服务的基本特性——我将其总结为下面几条：
屏蔽硬件资源保证开箱即用
缩短业务环境部署和启动时间
提供“无限”的存储和计算能力
实现多租户隔离保证数据安全
实现错误容忍和自动故障迁移
提高集群利用率和降低性能损耗
相比于MapReduce或者Spark任务，深度学习的模型训练时间周期长，而且需要调优的超参数更多，平台设计还需要考虑以下几点：
支持通用GPU等异构化硬件
支持主流的深度学习框架接口
支持无人值守的超参数自动调优
支持从模型训练到上线的工作流
这是我个人对云深度学习平台的需求理解，也是小米在实现cloud-ml服务时的基本设计原则。虽然涉及到高可用、分布式等颇具实现难度的问题，但借助目前比较成熟的云计算框架和开源技术，我们的架构和实现基本满足了前面所有的需求，当然如果有更多需求和想法欢迎随时交流。
阅读全文
0 0