AlexNet 是 2012 年由 Alex Krizhevsky 使用五层卷积、三层完全连接层开发的 CNN 网络,并赢得了 ImageNet 竞赛(ILSVRC)。AlexNet 证明了 CNN 在分类问题上的有效性(15.3% 错误率),而此前的图片识别错误率高达 25%。这一网络的出现对于计算机视觉在深度学习上的应用具有里程碑意义。

AlexNet 也是深度学习框架常用的性能指标工具,TensorFlow 就提供的 alexnet_benchmark.py 可以测试 GPU 和 CPU 上的性能。本文档以 AlexNet 为例,向您展示如何在阿里云容器服务上简单快速地运行 GPU 应用。

前提条件

需要基于GPU服务器的Swarm集群,本例中使用GPU计算型 gn5i 的 ECS 服务器。

操作步骤

  1. 登录容器服务管理控制台
  2. 在Swarm菜单下,单击左侧导航栏中的应用,然后单击页面右上角的创建应用


  3. 输入应用名称(本示例中为 alexNet)并选择集群, 单击下一步


  4. 配置应用。
    1. 在镜像名称栏输入registry.cn-beijing.aliyuncs.com/tensorflow-samples/alexnet_benchmark:1.0.0-devel-gpu


    2. 在容器配置中,填写运行的命令行,比如 python /alexnet_benchmark.py --batch_size 128 --num_batches 100


    3. 标签中,填写阿里云 gpu 标签,标签名为 aliyun.gpu,标签值为调度的 GPU 数量,本示例中为 1


  5. 完成应用配置后,单击创建创建应用。
    您可以在 应用列表页面,查看创建的 alexNet 应用。


这样您就可以在管理控制台,直接通过容器日志服务查看 AlexNet 在 GPU 集群上的性能。

操作路径:在应用列表页面,单击应用名称alexNet ,在应用详情页面,单击日志