tensorflow多机/多GPU训练时使用的术语

来源:互联网 发布:淘宝网睡衣大全冬季 编辑:程序博客网 时间:2024/05/18 02:43

Concepts

  • replica: 使用多机训练时, 一台机器对应一个replica——复本
  • tower:使用多GPU训练时, 一个GPU上对应一个tower。
  • clone: 由于tensorflow里多GPU训练一般是每个GPU上都有完整的模型,各自forward,得到的梯度交给CPU平均然后统一backward,每个GPU上的模型也叫做一个clone。所以clone与tower指的是同一个东西。
  • parameter server: 多机训练时计算梯度平均值并执行backward操作的参数服务器,功能类比于单机多GPU(也叫单机多卡)时的CPU。(未考证, TODO)
  • worker server:功能类比于单机多卡中的GPU。(未考证, TODO)

References

  • https://www.tensorflow.org/tutorials/using_gpu
  • https://github.com/balancap/SSD-Tensorflow/blob/master/deployment/model_deploy.py
0 0