神龙AI加速引擎AIACC能够适用于所有AI训练场景和AI推理场景。

AI训练的典型业务场景

AI训练常应用于以下典型业务场景:

  • 图像分类、图像识别
    • 常用框架:MXNet。
    • 常用存储:并行文件存储系统CPFS。
  • CTR预估
    • 常用框架:TensorFlow。
    • 模型:Wide&Deep模型。
    • 常用存储:文件系统HDFS。
  • NLP自然语言处理
    • 常用框架:TensorFlow。
    • 模型:Transformer、Bert模型。
    • 常用存储:并行文件存储系统CPFS。

AI推理的典型业务场景

AI推理常应用于以下典型业务场景:

  • 视频超分推理
    • 模型:超分模型。
    • 配置:T4 GPU。
    • 进行了如下性能优化,将性能提升至原来的2.7倍。
      • 视频解码移植到GPU。
      • 前后处理移植到GPU。
      • 自动凑满一次运算所需的数据集大小。
      • 卷积的深度优化。
  • 图像合成在线推理
    • 模型:GAN模型。
    • 配置:T4 GPU。
    • 进行了如下性能优化,将性能提升至原来的4倍。
      • 前后处理移植到GPU。
      • 自动凑满一次运算所需的数据集大小。
      • 卷积的深度优化。
  • CTR预估推理
    • 模型:Wide&Deep模型。
    • 配置:M40 GPU。
    • 进行了如下性能优化,将性能提升至原来的6.1倍。
      • 流水线优化。
      • 模型拆分。
      • 子模型分别优化。
  • 自然语言处理推理
    • 模型:Bert模型。
    • 配置:T4 GPU。
    • 进行了如下性能优化,将性能提升至原来的3.3倍。
      • 前后处理流水线优化。
      • 自动凑满一次运算所需的数据集大小。
      • Kernel深入优化。