GPU计算型实例具有高性能、高并行计算能力,适用于大规模并行计算场景,可以为您的业务提供更好的计算性能和效率。本文为您介绍云服务器ECS GPU计算型实例规格族的特点,并列出了具体的实例规格。
背景信息
在阅读各个实例规格族的特点及详细指标之前,您需要提前学习以下信息:
了解实例规格命名及分类:帮助您更好地理解实例规格族的命名及分类信息,了解各规格族之间差异,详参见实例规格分类与命名。
了解实例规格指标:提前了解实例规格的各项指标说明,请参见实例规格指标说明。
根据业务场景选择实例规格族:想获取更多关于如何在实际业务场景中选择合适的规格,请参见实例规格选型指导。
在确定您要选择的实例规格之后,您可能需要进一步了解以下信息:
查看实例可购买地域:各个地域下可供售卖的实例规格可能存在差异,实例的可购情况,您可以前往ECS实例可购买地域查看。
预估实例费用:想了解实例在不同付费方式下大概的花费,可使用阿里云的ECS价格计算器查看。
直接购买实例:可直接前往ECS购买页下单。
您可能还会关注:
类型 | 相关链接 |
GPU计算型(gn系列) | |
弹性裸金属服务器 | |
不推荐(如果该规格售罄,建议使用以上规格) |
GPU计算型实例规格族gn8v/gn8v-tee
该实例目前仅支持海外等部分地域,如有需求,请联系阿里云销售人员。
规格族介绍:
gn8v:阿里云针对AI模型训练和超大参数量模型推理任务推出的第8代加速计算规格族(GPU计算型实例规格族),针对不同应用需求,为您提供1卡、2卡、4卡和8卡多种机型。
gn8v-tee:为了满足您使用大模型进行模型训练和推理的安全性要求,阿里云基于gn8v推出一款具有机密计算特性的第8代实例规格族。该实例在GPU计算过程中对数据进行加密,确保用户数据的安全性。
适用场景:
对于70 B以上的LLM模型,进行多卡并行推理计算时性价比较高。
单个GPU提供39.5 TFLOPS FP32算力,在传统AI模型训练和自动驾驶训练业务中性能突出。
8卡之间支持NVLINK互联,适用于中小模型训练场景。
产品特色及定位:
高速&大容量显存:每个GPU配备了96 GB容量的HBM3显存,且显存带宽可以达到4 TB/s,大幅加快了模型训练和推理速度。
高卡间带宽:多个GPU卡之间通过900 GB/s NVLINK互联,多卡训练和推理的效率远超过历代GPU产品。
大模型量化技术:支持FP8算力,对大规模参数训练和推理过程的算力进行优化,大幅提升训练和推理的计算速度,降低显存占用。
(仅限gn8v-tee系列产品)高安全性:支持CPU机密计算(Intel TDX)和GPU机密计算(NVIDIA CC)功能,闭环全链路模型推理的机密计算能力。对于模型推理和训练的安全性,开启机密计算能力保障用户推理数据和企业模型的安全。
计算:
采用最新的CIPU 1.0云处理器。
具有解耦计算和存储能力,可以灵活选择所需存储资源。
提供裸金属能力,相对于传统虚拟化实例,可以支持GPU实例之间的P2P通信。
采用Intel第4代Xeon可扩展处理器,全核睿频可达3.1 GHz,基频可达2.8 GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,请参见IPv6通信。
支持巨型帧(Jumbo frames)。更多信息,请参见巨型帧(Jumbo Frames)。
超高网络性能,最大3000万PPS网络收发包能力(8卡实例)。
支持ERI(Elastic RDMA Interface)。
- 说明
关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
安全:支持可信计算(vTPM)特性(仅gn8v支持,gn8v-tee不支持)。更多详情,请参见可信计算能力概述。
gn8v包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 弹性网卡 | 队列数量(主) | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 最大支持云盘数量 | 云盘基础IOPS | 云盘基础带宽(GB/s) |
ecs.gn8v.4xlarge | 16 | 96 | 96GB * 1 | 12 | 8 | 16 | 30 | 30 | 17 | 10万 | 0.75 |
ecs.gn8v.6xlarge | 24 | 128 | 96GB * 1 | 15 | 8 | 24 | 30 | 30 | 17 | 12万 | 0.937 |
ecs.gn8v-2x.8xlarge | 32 | 192 | 96GB * 2 | 20 | 8 | 32 | 30 | 30 | 25 | 20万 | 1.25 |
ecs.gn8v-4x.8xlarge | 32 | 384 | 96GB * 4 | 20 | 8 | 32 | 30 | 30 | 25 | 20万 | 1.25 |
ecs.gn8v-2x.12xlarge | 48 | 256 | 96GB * 2 | 25 | 8 | 48 | 30 | 30 | 33 | 30万 | 1.50 |
ecs.gn8v-8x.16xlarge | 64 | 768 | 96GB * 8 | 32 | 8 | 64 | 30 | 30 | 33 | 36万 | 2.5 |
ecs.gn8v-4x.24xlarge | 96 | 512 | 96GB * 4 | 50 | 15 | 64 | 30 | 30 | 49 | 50万 | 3 |
ecs.gn8v-8x.48xlarge | 192 | 1024 | 96GB * 8 | 100 | 15 | 64 | 50 | 50 | 65 | 100万 | 6 |
gn8v-tee包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 弹性网卡 | 队列数量(主) | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 最大支持云盘数量 | 云盘基础IOPS | 云盘基础带宽(GB/s) |
ecs.gn8v-tee.4xlarge | 16 | 96 | 96GB * 1 | 12 | 8 | 16 | 30 | 30 | 17 | 10万 | 0.75 |
ecs.gn8v-tee.6xlarge | 24 | 128 | 96GB * 1 | 15 | 8 | 24 | 30 | 30 | 17 | 12万 | 0.937 |
ecs.gn8v-tee-8x.16xlarge | 64 | 768 | 96GB * 8 | 32 | 8 | 64 | 30 | 30 | 33 | 36万 | 2.5 |
ecs.gn8v-tee-8x.48xlarge | 192 | 1024 | 96GB * 8 | 100 | 15 | 64 | 50 | 50 | 65 | 100万 | 6 |
gn8v-tee规格族当前仅支持Alibaba Cloud Linux 3镜像。若使用基于Alibaba Cloud Linux 3构建的自定义镜像创建实例,请确保其内核版本不低于5.10.134-18。
GPU计算型实例规格族gn8is
该实例目前仅支持海外等部分地域,如有需求,请联系阿里云销售人员。
规格族介绍:gn8is是阿里云针对近期AI生成业务的发展推出的第8代加速计算规格族(GPU计算型实例规格族),针对不同应用需求,采用最新NVIDIA L20 GPU,为您提供1卡、2卡、4卡和8卡机型,以及不同CPU和GPU配比的实例规格。
产品特色及定位:
图形处理:该产品采用Intel第4代Xeon Scalable高主频处理器,在3D建模场景中,为您提供足够的CPU算力支撑,使得图形的渲染和设计更加顺畅。
推理任务:采用全新NVIDIA L20,单卡配置48 GB显存来加速推理任务,支持FP8浮点数格式,搭配ACK容器可灵活支持各类AIGC模型的推理,尤其适用于70 B以下LLM模型的推理任务。
适用场景:
结合云市场的GRID镜像使用GRID驱动,启动OpenGL和Direct3D图形能力,提供工作站级图形处理能力,适用于动漫、影视特效制作和渲染。
结合ACK容器化管理能力,更高效、低成本地支撑AIGC图形生成和LLM大模型推理。
其他通用AI识别场景、图像识别、语音识别等。
计算:
采用全新NVIDIA L20企业级GPU。
支持TensorRT等常用加速功能,支持FP8浮点数格式,提升模型推理性能。
显存容量提升至48 GB,多卡情况下,支持70 B及更大模型的单机推理。
支持图形处理能力,例如通过云助手方式或选择云市场镜像方式安装GRID驱动后,图形处理性能相对7代平台提升1倍。
NVIDIA L20主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
NVIDIA Ada Lovelace
容量:48 GB
带宽:864GB/s
FP64: N/A
FP32: 59.3 TFLOPS
FP16/BF16: 119 TFLOPS
FP8/INT8: 237 TFLOPS
3 * Video Encoder(+AV1)
3 * Video Decoder
4 * JPEG Decoder
PCIe接口:PCIe Gen4 x16
带宽:64GB/s
处理器:采用最新的Intel ® Xeon ®高主频处理器,全核睿频可达3.9 GHz,以应对更复杂的3D建模需求。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
支持ERI(Elastic RDMA Interface)。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
安全:支持可信计算(vTPM)特性。更多详情,请参见可信计算能力概述。
gn8is包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 弹性网卡 | 队列数量(主) | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 最大支持云盘数量 | 云盘基础IOPS | 云盘基础带宽(GB/s) |
ecs.gn8is.2xlarge | 8 | 64 | L20 * 1 | 48GB * 1 | 8 | 4 | 8 | 15 | 15 | 17 | 6万 | 0.75 |
ecs.gn8is.4xlarge | 16 | 128 | L20 * 1 | 48GB * 1 | 16 | 8 | 16 | 30 | 30 | 17 | 12万 | 1.25 |
ecs.gn8is-2x.8xlarge | 32 | 256 | L20 * 2 | 48GB * 2 | 32 | 8 | 32 | 30 | 30 | 33 | 25万 | 2 |
ecs.gn8is-4x.16xlarge | 64 | 512 | L20 * 4 | 48GB * 4 | 64 | 8 | 64 | 30 | 30 | 33 | 45万 | 4 |
ecs.gn8is-8x.32xlarge | 128 | 1024 | L20 * 8 | 48GB * 8 | 100 | 15 | 64 | 50 | 50 | 65 | 90万 | 8 |
GPU计算型实例规格族gn7e
gn7e的特点如下:
规格族介绍:
您可以根据需要选择不同数量的卡和不同CPU资源的规格,灵活适应其不同的AI业务需求。
依托第三代神龙架构,VPC和云盘网络带宽相比上一代平均提升一倍。
适用场景:
中小规模的AI训练业务。
使用CUDA进行加速的HPC业务。
对GPU处理能力或显存容量需求较高的AI推理业务。
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练应用。
高GPU负载的科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
重要在使用高通信负载的AI训练业务如Transformer等模型时,务必启用NVLink进行GPU间的数据通信,否则可能由于PCIe链路大规模数据传输引起非预期的故障,导致数据受损。如不确定您使用的训练通信链路拓扑,请提交工单由阿里云技术专家为您提供技术支持。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn7e包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn7e-c16g1.4xlarge | 16 | 125 | 80GB * 1 | 8 | 300万 | 8 | 8 | 10 | 1 |
ecs.gn7e-c16g1.8xlarge | 32 | 250 | 80GB * 2 | 16 | 600万 | 16 | 8 | 10 | 1 |
ecs.gn7e-c16g1.16xlarge | 64 | 500 | 80GB * 4 | 32 | 1200万 | 32 | 8 | 10 | 1 |
ecs.gn7e-c16g1.32xlarge | 128 | 1000 | 80GB * 8 | 64 | 2400万 | 32 | 16 | 15 | 1 |
GPU计算型实例规格族gn7i
规格族介绍:依托第三代神龙架构,提供稳定可预期的超高性能。同时通过芯片快速路径加速手段,完成存储、网络性能以及计算稳定性的数量级提升。
适用场景:
配备高性能CPU、内存、GPU,可以处理更多并发AI推理任务,适用于图像识别、语音识别、行为识别业务。
支持RTX功能,搭配高主频CPU,提供高性能的3D图形虚拟化能力,适用于远程图形设计、云游戏等高强度图形处理业务。
计算:
采用NVIDIA A10 GPU卡。
创新的Ampere架构。
支持RTX、TensorRT等常用加速功能。
处理器:2.9 GHz主频的Intel ® Xeon ® 可扩展处理器(Ice Lake),全核睿频3.5 GHz。
最大可提供752 GiB内存,相比gn6i大幅提升。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn7i包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn7i-c8g1.2xlarge | 8 | 30 | NVIDIA A10 * 1 | 24GB * 1 | 16 | 160万 | 8 | 4 | 15 | 15 |
ecs.gn7i-c16g1.4xlarge | 16 | 60 | NVIDIA A10 * 1 | 24GB * 1 | 16 | 300万 | 8 | 8 | 30 | 30 |
ecs.gn7i-c32g1.8xlarge | 32 | 188 | NVIDIA A10 * 1 | 24GB * 1 | 16 | 600万 | 12 | 8 | 30 | 30 |
ecs.gn7i-c32g1.16xlarge | 64 | 376 | NVIDIA A10 * 2 | 24GB * 2 | 32 | 1200万 | 16 | 15 | 30 | 30 |
ecs.gn7i-c32g1.32xlarge | 128 | 752 | NVIDIA A10 * 4 | 24GB * 4 | 64 | 2400万 | 32 | 15 | 30 | 30 |
ecs.gn7i-c48g1.12xlarge | 48 | 310 | NVIDIA A10 * 1 | 24GB * 1 | 16 | 900万 | 16 | 8 | 30 | 30 |
ecs.gn7i-c56g1.14xlarge | 56 | 346 | NVIDIA A10 * 1 | 24GB * 1 | 16 | 1000万 | 16 | 8 | 30 | 30 |
ecs.gn7i-2x.8xlarge | 32 | 128 | NVIDIA A10 * 2 | 24GB * 2 | 16 | 600万 | 16 | 8 | 30 | 30 |
ecs.gn7i-4x.8xlarge | 32 | 128 | NVIDIA A10 * 4 | 24GB * 4 | 32 | 600万 | 16 | 8 | 30 | 30 |
ecs.gn7i-4x.16xlarge | 64 | 256 | NVIDIA A10 * 4 | 24GB * 4 | 64 | 1200万 | 32 | 8 | 30 | 30 |
ecs.gn7i-8x.32xlarge | 128 | 512 | NVIDIA A10 * 8 | 24GB * 8 | 64 | 2400万 | 32 | 16 | 30 | 30 |
ecs.gn7i-8x.16xlarge | 64 | 256 | NVIDIA A10 * 8 | 24GB * 8 | 32 | 1200万 | 32 | 8 | 30 | 30 |
ecs.gn7i-2x.8xlarge、ecs.gn7i-4x.8xlarge、ecs.gn7i-4x.16xlarge、ecs.gn7i-8x.32xlarge以及ecs.gn7i-8x.16xlarge实例规格支持更改为ecs.gn7i-c8g1.2xlarge或ecs.gn7i-c16g1.4xlarge实例规格,但不支持更改为ecs.gn7i-c32g1.8xlarge等其他实例规格。
GPU计算型实例规格族gn7s
如需使用gn7s,请提交工单申请。
规格族介绍:
采用全新的Intel IceLake处理器,同时搭载Nvidia Ampere架构的NVIDIA A30 GPU卡,您可以根据需要选择不同GPU卡数和不同CPU资源的规格,灵活适应不同的AI业务需求。
基于阿里云全新的第三代神龙架构,VPC和云盘网络带宽相比上一代平均提升一倍。
适用场景:配备高性能CPU、内存、GPU,可以处理更多并发AI推理业务需求,适用于图像识别、语音识别、行为识别业务。
计算:
采用NVIDIA A30 GPU卡。
创新的Nvidia Ampere架构。
支持MIG(Multi-Instance GPU)功能、加速功能(基于第二代Tensor Cores加速),提供多种业务支持。
处理器:2.9 GHz主频的Intel ® Xeon ® 可扩展处理器(Ice Lake),全核睿频3.5 GHz。
容量内存相比上一代实例规格族大幅提升。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn7s包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列 | 弹性网卡 |
ecs.gn7s-c8g1.2xlarge | 8 | 60 | NVIDIA A30 * 1 | 24GB * 1 | 16 | 160万 | 5 | 1 | 8 | 4 |
ecs.gn7s-c16g1.4xlarge | 16 | 120 | NVIDIA A30 * 1 | 24GB * 1 | 16 | 300万 | 5 | 1 | 8 | 8 |
ecs.gn7s-c32g1.8xlarge | 32 | 250 | NVIDIA A30 * 1 | 24GB * 1 | 16 | 600万 | 5 | 1 | 12 | 8 |
ecs.gn7s-c32g1.16xlarge | 64 | 500 | NVIDIA A30 * 2 | 24GB * 2 | 32 | 1200万 | 5 | 1 | 16 | 15 |
ecs.gn7s-c32g1.32xlarge | 128 | 1000 | NVIDIA A30 * 4 | 24GB * 4 | 64 | 2400万 | 10 | 1 | 32 | 15 |
ecs.gn7s-c48g1.12xlarge | 48 | 380 | NVIDIA A30 * 1 | 24GB * 1 | 16 | 900万 | 8 | 1 | 16 | 8 |
ecs.gn7s-c56g1.14xlarge | 56 | 440 | NVIDIA A30 * 1 | 24GB * 1 | 16 | 1000万 | 8 | 1 | 16 | 8 |
GPU计算型实例规格族gn7
适用场景:
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练应用。
高GPU负载的科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn7包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn7-c12g1.3xlarge | 12 | 94 | 40GB * 1 | 4 | 250万 | 4 | 8 | 10 | 1 |
ecs.gn7-c13g1.13xlarge | 52 | 378 | 40GB * 4 | 16 | 900万 | 16 | 8 | 30 | 30 |
ecs.gn7-c13g1.26xlarge | 104 | 756 | 40GB * 8 | 30 | 1800万 | 16 | 15 | 10 | 1 |
GPU计算型实例规格族gn6i
适用场景:
AI(DL和ML)推理,适合计算机视觉、语音识别、语音合成、NLP、机器翻译、推荐系统。
云游戏云端实时渲染。
AR和VR的云端实时渲染。
重载图形计算或图形工作站。
GPU加速数据库。
高性能计算。
计算:
GPU加速器:T4。
创新的Turing架构。
单GPU显存16 GB(GPU显存带宽320 GB/s)。
单GPU 2560个CUDA Cores。
单GPU多达320个Turing Tensor Cores。
可变精度Tensor Cores支持65 TFLOPS FP16、130 INT8 TOPS以及260 INT4 TOPS。
处理器与内存配比约为1:4。
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn6i包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 云盘基础IOPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn6i-c4g1.xlarge | 4 | 15 | NVIDIA T4 * 1 | 16GB * 1 | 4 | 250万 | 无 | 2 | 2 | 10 | 1 |
ecs.gn6i-c8g1.2xlarge | 8 | 31 | NVIDIA T4 * 1 | 16GB * 1 | 5 | 250万 | 无 | 2 | 2 | 10 | 1 |
ecs.gn6i-c16g1.4xlarge | 16 | 62 | NVIDIA T4 * 1 | 16GB * 1 | 6 | 250万 | 无 | 4 | 3 | 10 | 1 |
ecs.gn6i-c24g1.6xlarge | 24 | 93 | NVIDIA T4 * 1 | 16GB * 1 | 7.5 | 250万 | 无 | 6 | 4 | 10 | 1 |
ecs.gn6i-c40g1.10xlarge | 40 | 155 | NVIDIA T4 * 1 | 16GB * 1 | 10 | 160万 | 无 | 16 | 10 | 10 | 1 |
ecs.gn6i-c24g1.12xlarge | 48 | 186 | NVIDIA T4 * 2 | 16GB * 2 | 15 | 450万 | 无 | 12 | 6 | 10 | 1 |
ecs.gn6i-c24g1.24xlarge | 96 | 372 | NVIDIA T4 * 4 | 16GB * 4 | 30 | 450万 | 25万 | 24 | 8 | 10 | 1 |
GPU计算型实例规格族gn6e
适用场景:
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练、推理应用。
科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
计算:
采用NVIDIA V100(32 GB NVLink)GPU卡。
GPU加速器:V100(SXM2封装)。
创新的Volta架构。
单GPU显存32 GB HBM2(GPU显存带宽900 GB/s)。
单GPU 5120个CUDA Cores。
单GPU 640个Tensor Cores。
单GPU支持6个NVLink链路(NVLink属于双向链路),单向链路的带宽为25 Gbit/s,总带宽为6×25×2=300 Gbit/s。
处理器与内存配比约为1:8。
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、ESSD同城冗余云盘、SSD云盘和高效云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn6e包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn6e-c12g1.3xlarge | 12 | 92 | NVIDIA V100 * 1 | 32GB * 1 | 5 | 80万 | 8 | 6 | 10 | 1 |
ecs.gn6e-c12g1.6xlarge | 24 | 184 | NVIDIA V100 * 2 | 32GB * 2 | 8 | 120万 | 8 | 8 | 20 | 1 |
ecs.gn6e-c12g1.12xlarge | 48 | 368 | NVIDIA V100 * 4 | 32GB * 4 | 16 | 240万 | 8 | 8 | 20 | 1 |
ecs.gn6e-c12g1.24xlarge | 96 | 736 | NVIDIA V100 * 8 | 32GB * 8 | 32 | 450万 | 16 | 8 | 20 | 1 |
GPU计算型实例规格族gn6v
适用场景:
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练、推理应用。
科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
计算:
采用NVIDIA V100 GPU卡。
GPU加速器:V100(SXM2封装) 。
创新的Volta架构。
单GPU显存16 GB HBM2(GPU显存带宽900 GB/s)。
单GPU 5120个CUDA Cores。
单GPU 640个Tensor Cores。
单GPU支持6个NVLink链路(NVLink属于双向链路),单向链路的带宽为25 Git/s,总带宽为6×25×2=300 Git/s。
处理器与内存配比约为1:4。
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn6v包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 云盘基础IOPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn6v-c8g1.2xlarge | 8 | 32 | NVIDIA V100 * 1 | 16GB * 1 | 2.5 | 80万 | 无 | 4 | 4 | 10 | 1 |
ecs.gn6v-c8g1.4xlarge | 16 | 64 | NVIDIA V100 * 2 | 16GB * 2 | 5 | 100万 | 无 | 4 | 8 | 20 | 1 |
ecs.gn6v-c8g1.8xlarge | 32 | 128 | NVIDIA V100 * 4 | 16GB * 4 | 10 | 200万 | 无 | 8 | 8 | 20 | 1 |
ecs.gn6v-c8g1.16xlarge | 64 | 256 | NVIDIA V100 * 8 | 16GB * 8 | 20 | 250万 | 无 | 16 | 8 | 20 | 1 |
ecs.gn6v-c10g1.20xlarge | 82 | 336 | NVIDIA V100 * 8 | 16GB * 8 | 35 | 450万 | 25万 | 16 | 8 | 20 | 1 |
GPU计算型弹性裸金属服务器实例规格族ebmgn9g
ebmgn9g正在邀测中,如需使用,请提交工单申请。
规格族介绍:ebmgn9g是阿里云推出的第9代全功能高性价比GPU裸金属实例。采用最新一代CIPU2.0提供云服务能力,搭配高主频CPU,大容量内存和全新Blackwell架构专业显卡,为自动驾驶/具身智能训练,大模型推理,影视动漫渲染,元宇宙/云游戏服务等各类GPU加速场景提供高性价比的GPU云服务能力。
适用场景及产品特色:
自动驾驶/具身智能:
提供256vCPU,CPU全核最高工作于4.2GHz以上,搭配2.3T大容量内存,支撑自动驾驶/具身智能训练中的数据处理业务需求。搜索推荐:
搭配的Blackwell GPU提供137T高性能TF32算力,平均每张GPU搭配32vCPU和153GB/s内存带宽,为搜索,广告业务提供最佳的配置组合。大模型推理:
全新一代GPU提供超越8代的全新算力,显存带宽提升至1344GB/s,新支持FP4算力全面提升推理性能和性价比。8张GPU基于PCIe Gen5互联,带宽达到128GB/s,多卡并行推理效率大大提升。云游戏/渲染/元宇宙:
CPU最高可达5GHz高主频,是3D建模的顶级选择,GPU原生支持图形能力,提供通过专业设计认证的工作站级图形驱动,支持OpenGL全功能加速,是高端影视动漫开发,CAD设计的最优选择。
采用最新的CIPU 2.0云处理器:
第2代CIPU提供更高的云处理算力,提供更强的eRDMA,VPC,EBS组件算力。裸金属实例可直接访问物理资源,或者需要License绑定硬件等要求的工作负载。支持容器(包括但不限于Docker、Clear Container、Pouch等)。
计算:
采用全新Blackwell架构专业显卡:
支持OpenGL 专业级图形处理功能
支持RTX、TensorRT等常用加速功能,全新升级支持FP4和PCIe Gen5互联。
采用PCIe Switch互联,相比直连CPU方案,其NCCL性能提升36%,多卡分片大模型推理时,性能最大提升9%。
GPU主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
加速APIs
Blackwell
容量:48 GB
带宽:1344GB/s
TF32: 126 TFLOPS
FP32: 52 TFLOPS
FP16/BF16: 266 TFLOPS
FP8/INT8: 533 TFLOPS
FP4: 970 TFLOPS
RT core: 196 TFLOPS
3 * Video Encoder
3 * Video Decoder
PCIe Gen5 x16: 128GB/s
支持P2P
支持DX12、
OpenGL4.6、Vulkan1.3、CUDA12.8、Open CL3.0、DirectCompute
处理器:3.3GHz-5GHz主频的 AMD Turin-C 处理器(SPR),全核最高可达4.2GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至360 Gbit/s,可用于自动驾驶,具身智能,CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn9g包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡/辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn9g.64xlarge | 256 | 2304 | 48GB * 8 | 360(180 * 2) | 3000万 | 30 | 30 | 64/16 | 38 | 33 | 8 |
ebmgn9g实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn9ge
ebmgn9ge正在邀测中,如需使用,请提交工单申请。
规格族介绍:ebmgn9ge是阿里云推出的第9代全功能高性价比GPU裸金属实例。采用最新一代CIPU2.0提供云服务能力,搭配高主频CPU,大容量内存和全新Blackwell架构专业显卡,为自动驾驶/具身智能训练,大模型推理,影视动漫渲染,元宇宙/云游戏服务等各类GPU加速场景提供高性价比的GPU云服务能力。
适用场景及产品特色:
自动驾驶/具身智能:
提供256vCPU,CPU全核最高工作于4.2GHz以上,搭配2.3T大容量内存,支撑自动驾驶/具身智能训练中的数据处理业务需求。搜索推荐:
搭配的Blackwell GPU提供137T高性能TF32算力,平均每张GPU搭配32vCPU和153GB/s内存带宽,为搜索,广告业务提供最佳的配置组合。大模型推理:
ebmgn9ge专为大语言模型提供单卡72G大显存算力,同时显存带宽达到1344GB/s,为LLM场景提供高性能推理算力,配合全新FP4计算架构,和128GB/s的第5代PCIe带宽,可以支持8卡并行671B以上的大模型推理。
云游戏/渲染/元宇宙:
CPU最高可达5GHz高主频,是3D建模的顶级选择,GPU原生支持图形能力,提供通过专业设计认证的工作站级图形驱动,支持OpenGL全功能加速,是高端影视动漫开发,CAD设计的最优选择。
采用最新的CIPU 2.0云处理器:
第2代CIPU提供更高的云处理算力,提供更强的eRDMA、VPC、EBS组件算力。裸金属实例可直接访问物理资源,或者需要License绑定硬件等要求的工作负载。支持容器(包括但不限于Docker、Clear Container、Pouch等)。
计算:
采用全新Blackwell架构专业显卡:
支持OpenGL 专业级图形处理功能
支持RTX、TensorRT等常用加速功能,全新升级支持FP4和PCIe Gen5互联。
采用PCIe Switch互联,相比直连CPU方案,其NCCL性能提升36%,多卡分片大模型推理时,性能最大提升9%。
GPU主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
加速APIs
Blackwell
容量:72 GB
带宽:1344GB/s
TF32: 126 TFLOPS
FP32: 52 TFLOPS
FP16/BF16: 266 TFLOPS
FP8/INT8: 533 TFLOPS
FP4: 970 TFLOPS
RT core: 196 TFLOPS
3 * Video Encoder
3 * Video Decoder
PCIe Gen5 x16: 128GB/s
支持P2P
支持DX12、
OpenGL4.6、Vulkan1.3、CUDA12.8、Open CL3.0、DirectCompute
处理器:3.3GHz-5GHz主频的 AMD Turin-C 处理器(SPR),全核最高可达4.2GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至360 Gbit/s,可用于自动驾驶,具身智能,CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn9ge包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡/辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn9ge.64xlarge | 256 | 2304 | 72GB * 8 | 360(180 * 2) | 3000万 | 30 | 30 | 64/16 | 38 | 33 | 8 |
ebmgn9ge实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn9gc
ebmgn9gc正在邀测中,如需使用,请提交工单申请。
规格族介绍:ebmgn9gc是阿里云推出的第9代全功能高性价比GPU裸金属实例。采用最新一代CIPU2.0提供云服务能力,搭配高主频CPU,大容量内存和全新Blackwell架构专业显卡,为自动驾驶/具身智能训练,大模型推理,影视动漫渲染,元宇宙/云游戏服务等各类GPU加速场景提供高性价比的GPU云服务能力。
适用场景及产品特色:
自动驾驶/具身智能:
提供256vCPU,CPU全核最高工作于4.2GHz以上,搭配2.3T大容量内存,支撑自动驾驶/具身智能训练中的数据处理业务需求。搜索推荐:
搭配的Blackwell GPU提供137T高性能TF32算力,平均每张GPU搭配32vCPU和153GB/s内存带宽,为搜索,广告业务提供最佳的配置组合。大模型推理:
ebmgn9gc专为大语言模型提供单卡72G大显存算力,同时显存带宽达到1344GB/s,为LLM场景提供高性能推理算力,配合全新FP4计算架构,和128GB/s的第5代PCIe带宽,可以支持8卡并行671B以上的大模型推理。
云游戏/渲染/元宇宙:
CPU最高可达5GHz高主频,是3D建模的顶级选择,GPU原生支持图形能力,提供通过专业设计认证的工作站级图形驱动,支持OpenGL全功能加速,是高端影视动漫开发,CAD设计的最优选择。
采用最新的CIPU 2.0云处理器:
第2代CIPU提供更高的云处理算力,提供更强的eRDMA、VPC、EBS组件算力。裸金属实例可直接访问物理资源,或者需要License绑定硬件等要求的工作负载。支持容器(包括但不限于Docker、Clear Container、Pouch等)。
计算:
采用全新Blackwell架构专业显卡:
支持OpenGL 专业级图形处理功能
支持RTX、TensorRT等常用加速功能,全新升级支持FP4和PCIe Gen5互联。
采用PCIe Switch互联,相比直连CPU方案,其NCCL性能提升36%,多卡分片大模型推理时,性能最大提升9%。
GPU主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
加速APIs
Blackwell
容量:72 GB
带宽:1344GB/s
TF32: 126 TFLOPS
FP32: 52 TFLOPS
FP16/BF16: 266 TFLOPS
FP8/INT8: 533 TFLOPS
FP4: 970 TFLOPS
RT core: 196 TFLOPS
3 * Video Encoder
3 * Video Decoder
PCIe Gen5 x16: 128GB/s
支持P2P
支持DX12、
OpenGL4.6、Vulkan1.3、CUDA12.8、Open CL3.0、DirectCompute
处理器:3.3GHz-5GHz主频的 AMD Turin-C 处理器(SPR),全核最高可达4.2GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至360 Gbit/s,可用于自动驾驶,具身智能,CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn9gc包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡/辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn9gc.64xlarge | 256 | 1536 | 72GB * 8 | 360(180 * 2) | 3000万 | 30 | 30 | 64/16 | 38 | 33 | 8 |
ebmgn9gc实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn9gc
ebmgn9gc正在邀测中,如需使用,请提交工单申请。
规格族介绍:ebmgn9gc是阿里云推出的第9代全功能高性价比GPU裸金属实例。采用最新一代CIPU2.0提供云服务能力,搭配高主频CPU,大容量内存和全新Blackwell架构专业显卡,为自动驾驶/具身智能训练,大模型推理,影视动漫渲染,元宇宙/云游戏服务等各类GPU加速场景提供高性价比的GPU云服务能力。
适用场景及产品特色:
自动驾驶/具身智能:
提供256vCPU,CPU全核最高工作于4.2GHz以上,搭配2.3T大容量内存,支撑自动驾驶/具身智能训练中的数据处理业务需求。搜索推荐:
搭配的Blackwell GPU提供137T高性能TF32算力,平均每张GPU搭配32vCPU和153GB/s内存带宽,为搜索,广告业务提供最佳的配置组合。大模型推理:
ebmgn9gc专为大语言模型提供单卡72G大显存算力,同时显存带宽达到1344GB/s,为LLM场景提供高性能推理算力,配合全新FP4计算架构,和128GB/s的第5代PCIe带宽,可以支持8卡并行671B以上的大模型推理。
云游戏/渲染/元宇宙:
CPU最高可达5GHz高主频,是3D建模的顶级选择,GPU原生支持图形能力,提供通过专业设计认证的工作站级图形驱动,支持OpenGL全功能加速,是高端影视动漫开发,CAD设计的最优选择。
采用最新的CIPU 2.0云处理器:
第2代CIPU提供更高的云处理算力,提供更强的eRDMA、VPC、EBS组件算力。裸金属实例可直接访问物理资源,或者需要License绑定硬件等要求的工作负载。支持容器(包括但不限于Docker、Clear Container、Pouch等)。
计算:
采用全新Blackwell架构专业显卡:
支持OpenGL 专业级图形处理功能
支持RTX、TensorRT等常用加速功能,全新升级支持FP4和PCIe Gen5互联。
采用PCIe Switch互联,相比直连CPU方案,其NCCL性能提升36%,多卡分片大模型推理时,性能最大提升9%。
GPU主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
加速APIs
Blackwell
容量:72 GB
带宽:1344GB/s
TF32: 126 TFLOPS
FP32: 52 TFLOPS
FP16/BF16: 266 TFLOPS
FP8/INT8: 533 TFLOPS
FP4: 970 TFLOPS
RT core: 196 TFLOPS
3 * Video Encoder
3 * Video Decoder
PCIe Gen5 x16: 128GB/s
支持P2P
支持DX12、
OpenGL4.6、Vulkan1.3、CUDA12.8、Open CL3.0、DirectCompute
处理器:3.3GHz-5GHz主频的 AMD Turin-C 处理器(SPR),全核最高可达4.2GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至360 Gbit/s,可用于自动驾驶,具身智能,CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn9gc包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡/辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn9gc.64xlarge | 256 | 1536 | 72GB * 8 | 360(180 * 2) | 3000万 | 30 | 30 | 64/16 | 38 | 33 | 8 |
ebmgn9gc实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn8v
该实例目前仅支持海外等部分地域,如有需求,请联系阿里云销售人员。
规格族介绍:ebmgn8v是阿里云为AI模型训练和超大参数量模型推出的第8代加速计算规格族(弹性裸金属实例规格族),每个实例是1台采用了8个GPU卡裸金属主机。
适用场景:
对于70 B以上的LLM模型,进行多卡并行推理计算时性价比较高。
单个GPU提供39.5 TFLOPS FP32算力,在传统AI模型训练和自动驾驶训练业务中性能突出。
8卡之间支持NVLINK互联,适用于中小模型训练场景。
产品特色及定位:
高速&大容量显存:每个GPU配备了96 GB容量的HBM3显存,显存带宽达到4 TB/s,大幅加快了模型训练和推理速度。
高卡间带宽:多GPU卡之间通过900 GB/s NVLINK互联,多卡训练和推理的效率远超过历代GPU产品。
大模型量化技术:支持FP8算力,对大规模参数训练和推理过程的算力进行优化,大幅提升训练和推理的计算速度,降低显存占用。
计算:
采用最新的CIPU 1.0云处理器:
具有解耦计算和存储能力,可以灵活选择所需存储资源。相对于第七代GPU实例,该实例规格的机器间带宽提升至160 Gbit/s,可以更快地完成数据传输和处理。
CIPU提供裸金属能力,相对于传统虚拟化实例,可以支持GPU实例之间的P2P通信。
采用Intel第4代Xeon可扩展处理,提供192个vCPU,全核睿频可达3.1 GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至160 Gbit/s,可用于CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn8v包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡&辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn8v.48xlarge | 192 | 1024 | 96GB*8 | 170(85 * 2) | 3000万 | 30 | 30 | 64 | 32 | 31 | 6 |
ebmgn8V实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn8ia
该实例目前仅支持海外等部分地域,如有需求,请联系阿里云销售人员。
规格族介绍:ebmgn8ia是阿里云针对搜索推荐、仿真和其他GPU计算稀疏类(平均每颗GPU需要配备比较多的vCPU资源)业务的发展推出的第8代加速计算规格族(弹性裸金属实例规格族),采用最新NVIDIA L20 GPU,每个实例为一台采用了2颗高主频CPU和4个GPU计算卡的裸金属主机。
产品特色及适用场景:
高主频:该产品配置了2颗AMD EPYC™ Genoa 9T34处理器,每颗处理有64个物理核,整机提供256个vCPU,主频高达3.4-3.75GHz。大幅提高CPU单核性能,适用于CAD建模,并提升CAE仿真的前期预处理速度。
稀疏资源配比:平均GPU配置了64 vCPU和384 GiB内存,平均每个GPU的内存带宽达到230 GB/s, 适合高I/O吞吐的GPU计算场景,如广告、搜索、推荐以及传统CAE仿真,部分采用CPU渲染的影视制作等。
采用最新的CIPU 1.0云处理器:
具有解耦计算和存储能力,可以灵活选择所需存储资源。相对于上一代,该实例规格的机器间带宽提升至160 Gbit/s,可以更快地完成数据传输和处理。
CIPU提供裸金属能力,相对于传统虚拟化实例,可以支持GPU实例之间的PCIe P2P通信。
计算:
采用全新NVIDIA L20企业级GPU:
支持vGPU、RTX、TensorRT等常用加速功能。
支持FP8精度,提升计算效率。
NVIDIA L20主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
NVIDIA Ada Lovelace
容量:48 GB
带宽:864 GB/s
FP64: N/A
FP32: 59.3 TFLOPS
FP16/BF16: 119 TFLOPS
FP8/INT8: 237 TFLOPS
3 * Video Encoder(+AV1)
3 * Video Decoder
4 * JPEG Decoder
PCIe接口:PCIe Gen4 x16
带宽:64 GB/s
处理器:3.4 GHz~3.75 GHz的AMD EPYC™ Genoa 9T34处理器。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至160 Gbit/s,可用于CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn8ia包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡/辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn8ia.64xlarge | 256 | 1536 | L20 * 4 | 48GB*4 | 160(80 * 2) | 3000万 | 30 | 30 | 64/16 | 32 | 31 | 6 |
ebmgn8ia实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn8is
该实例目前仅支持海外等部分地域,如有需求,请联系阿里云销售人员。
规格族介绍:ebmgn8is是阿里云针对近期AI生成业务的发展推出的第8代加速计算规格族(弹性裸金属实例规格族),采用最新NVIDIA L20 GPU,每个实例为一台采用了8个GPU计算卡的裸金属主机。
产品特色及定位:
图形处理:该产品采用Intel第4代Xeon Scalable高主频处理器,在3D建模场景,为您提供足够的CPU算力支撑,使得图形的渲染和设计更加顺畅。
推理任务:采用全新NVIDIA L20,单卡配置48 GB显存来加速推理任务,支持FP8浮点数格式,搭配ACK容器可灵活支持各类AIGC模型的推理,尤其适用于70 B以下LLM模型的推理任务。
训练任务:该实例提供高性价比的计算能力,FP32计算性能相比7代推理实例提升1倍,特别适用于基于FP32开发的CV类模型和其他各类中小模型的训练。
适用场景:
结合云市场的GRID镜像使用GRID图形驱动,启动OpenGL和Direct3D图形能力,提供工作站级图形处理能力,适用于动漫、影视特效制作和渲染
结合ACK容器化管理能力,更高效、低成本地支撑AIGC图形生成和LLM大模型推理(最大支持130 B)
其他通用AI识别场景、图像识别、语音识别等
采用最新的CIPU 1.0云处理器:
具有解耦计算和存储能力,可以灵活选择所需存储资源。相对于上一代,该实例规格的机器间带宽提升至160 Gbit/s,可以更快地完成数据传输和处理。
CIPU提供裸金属能力,相对于传统虚拟化实例,可以支持GPU实例之间的PCIE P2P通信。
计算:
采用全新NVIDIA L20企业级GPU:
支持vGPU、RTX、TensorRT等常用加速功能。
采用PCIe Switch互联,相比直连CPU方案,其NCCL性能提升36%,多卡分片推理大模型时,推理性能最大提升9%。
NVIDIA L20主要参数:
GPU架构
GPU显存
计算性能
视频编解码能力
卡间互联
NVIDIA Ada Lovelace
容量:48 GB
带宽:864 GB/s
FP64: N/A
FP32: 59.3 TFLOPS
FP16/BF16: 119 TFLOPS
FP8/INT8: 237 TFLOPS
3 * Video Encoder(+AV1)
3 * Video Decoder
4 * JPEG Decoder
PCIe接口:PCIe Gen4 x16
带宽:64 GB/s
处理器:3.4 GHz主频的Intel ® Xeon ®可扩展处理器(SPR),全核睿频可达3.9 GHz。
存储:
I/O优化实例。
支持NVMe协议。详情参见NVMe协议概述。
支持的云盘类型:弹性临时盘、ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,3000万PPS网络收发包能力。
支持ERI(Elastic RDMA Interface),可以在VPC网络下实现RDMA直通加速互联,将带宽提升至160 Gbit/s,可用于CV和传统模型的训练业务。
说明关于ERI的使用说明,请参见在企业级实例上启用eRDMA。
ebmgn8is包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 多队列(主网卡/辅助网卡) | 弹性网卡 | 最大挂载数据盘数 | 云盘最大带宽(GB/s) |
ecs.ebmgn8is.32xlarge | 128 | 1024 | L20 * 8 | 48GB*8 | 160(80 * 2) | 3000万 | 30 | 30 | 64/16 | 32 | 31 | 6 |
ebmgn8is实例规格所使用的镜像启动模式必须为UEFI模式。如果您需要使用自定义镜像,请确保该自定义镜像支持UEFI启动模式,并且镜像的启动模式属性已设置为UEFI模式。具体操作,请参见实例启动模式。
GPU计算型弹性裸金属服务器实例规格族ebmgn7e
规格族介绍:ebmgn7e是基于神龙架构,实现软件定义硬件计算,灵活弹性与强悍性能兼备的实例规格族。
适用场景:
各类深度学习训练开发业务。
HPC加速计算和仿真。
重要在使用高通信负载的AI训练业务如Transformer等模型时,务必启用NVLink进行GPU间的数据通信,否则可能由于PCIe链路大规模数据传输引起非预期的故障,导致数据受损。如不确定您使用的训练通信链路拓扑,请提交工单由阿里云技术专家为您提供技术支持。
计算:
处理器:基于Intel ® Xeon ®Scalable计算平台,2.9 GHz主频,全核睿频3.5 GHz,支持PCIe 4.0接口。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,2400万PPS网络收发包能力。
ebmgn7e包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列(主网卡/辅助网卡) | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.ebmgn7e.32xlarge | 128 | 1024 | 80GB * 8 | 64 | 2400万 | 32/12 | 32 | 10 | 1 |
MIG(Multi-Instance GPU)功能需要您在ebmgn7e实例启动后自行检查并决定是否开启或关闭,系统无法保证MIG(Multi-Instance GPU)功能是开启或关闭状态。关于MIG(Multi-Instance GPU)的更多信息,请参见NVIDIA Multi-Instance GPU User Guide。
ebmgn7e实例是否支持开启MIG功能的说明如下所示:
实例规格 | 是否支持开启MIG功能 | 说明 |
ecs.ebmgn7e.32xlarge | 是 | ebmgn7e裸金属实例支持开启MIG功能。 |
GPU计算型弹性裸金属服务器实例规格族ebmgn7i
规格族介绍:ebmgn7i是基于神龙架构,实现软件定义硬件计算,灵活弹性与强悍性能兼备的实例规格族。
适用场景:
配备高性能CPU、内存、GPU,可以处理更多并发AI推理任务,适用于图像识别、语音识别、行为识别业务。
支持RTX功能,搭配高主频CPU,提供高性能的3D图形虚拟化能力,适用于远程图形设计、云游戏等高强度图形处理业务。
支持RTX功能,搭配高网络带宽和云盘带宽,适用于搭建高性能渲染农场。
配备多个GPU,搭配高网络带宽,适用于小规模深度学习训练业务。
计算:
采用NVIDIA A10 GPU计算卡:
创新的Ampere架构。
支持vGPU、RTX、TensorRT等常用加速功能。
处理器:2.9 GHz主频的Intel ® Xeon ®可扩展处理器(Ice Lake),全核睿频3.5 GHz。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
超高网络性能,2400万PPS网络收发包能力。
ebmgn7i包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.ebmgn7i.32xlarge | 128 | 768 | NVIDIA A10 * 4 | 24GB * 4 | 64 | 2400万 | 32 | 32 | 10 | 1 |
GPU计算型弹性裸金属服务器实例规格族ebmgn7
规格族介绍:ebmgn7基于神龙架构,实现软件定义硬件计算,灵活弹性与强悍性能兼备的实例规格族。
适用场景:
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练应用。
高GPU负载的科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
计算:
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY(Cascade Lake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘和ESSD同城冗余云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与计算规格对应(规格越高网络性能越强)。
ebmgn7包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.ebmgn7.26xlarge | 104 | 768 | 40GB*8 | 30 | 1800万 | 16 | 15 | 10 | 1 |
MIG(Multi-Instance GPU)功能需要您在ebmgn7实例启动后自己检查并决定是否开启或关闭,系统无法保证MIG(Multi-Instance GPU)功能是开启还是关闭状态。关于MIG(Multi-Instance GPU)的更多信息,请参见NVIDIA Multi-Instance GPU User Guide。
ebmgn7实例是否支持开启MIG功能的说明如下所示:
实例规格 | 是否支持开启MIG功能 | 说明 |
ecs.ebmgn7.26xlarge | 是 | ebmgn7裸金属实例支持开启MIG功能。 |
GPU计算型弹性裸金属服务器实例规格族ebmgn6e
规格族介绍:
ebmgn6e是基于神龙架构,实现软件定义硬件计算,灵活弹性与强悍性能兼备的实例规格族。
采用NVIDIA V100(32 GB NVLink) GPU计算卡。
GPU加速器为V100(SXM2封装) ,特点如下:
创新的Volta架构。
单GPU显存32 GB HBM2(GPU显存带宽900 GB/s)。
单GPU 5120个CUDA Cores。
单GPU 640个Tensor Cores。
单GPU支持6个NVLink链路(NVLink属于双向链路),单向链路的带宽为25 GB/s,总带宽为6×25×2=300 GB/s。
适用场景:
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练以及推理应用。
科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
计算:
处理器与内存配比为1:8。
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、ESSD同城冗余云盘、SSD云盘和高效云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与计算规格对应(规格越高网络性能越强)。
ebmgn6e包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.ebmgn6e.24xlarge | 96 | 768 | NVIDIA V100 * 8 | 32GB * 8 | 32 | 480万 | 16 | 15 | 10 | 1 |
GPU计算型弹性裸金属服务器实例规格族ebmgn6v
规格族介绍:
ebmgn6v是基于神龙架构,实现软件定义硬件计算,灵活弹性与强悍性能兼备的实例规格族。
采用NVIDIA V100 GPU计算卡
GPU加速器为V100(SXM2封装) ,特点如下:
创新的Volta架构
单GPU显存16 GB HBM2(GPU显存带宽900 GB/s)
单GPU 5120个CUDA Cores
单GPU 640个Tensor Cores
单GPU支持6个NVLink链路(NVLink属于双向链路),单向链路的带宽为25 GB/s,总带宽为6×25×2=300 GB/s
适用场景:
深度学习,例如图像分类、无人驾驶、语音识别等人工智能算法的训练以及推理应用
科学计算,例如计算流体动力学、计算金融学、分子动力学、环境分析等。
计算:
处理器与内存配比为1:4。
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、ESSD同城冗余云盘、SSD云盘和高效云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与计算规格对应(规格越高网络性能越强)。
ebmgn6v包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.ebmgn6v.24xlarge | 96 | 384 | NVIDIA V100 * 8 | 16GB * 8 | 30 | 450万 | 8 | 32 | 10 | 1 |
GPU计算型弹性裸金属服务器实例规格族ebmgn6i
规格族介绍:
ebmgn6i是基于神龙架构,实现软件定义硬件计算,灵活弹性与强悍性能兼备的实例规格族。
GPU加速器为T4 ,特点如下:
创新的Turing架构
单GPU显存16 GB(GPU显存带宽320 GB/s)
单GPU 2560个CUDA Cores
单GPU多达320个Turing Tensor Cores
可变精度Tensor Cores支持65 TFLOPS FP16、130 INT8 TOPS以及260 INT4 TOPS
适用场景:
AI(DL/ML)推理,适合计算机视觉、语音识别、语音合成、NLP、机器翻译、推荐系统。
云游戏云端实时渲染。
AR/VR的云端实时渲染。
重载图形计算或图形工作站。
GPU加速数据库。
高性能计算。
计算:
处理器与内存配比为1:4。
处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake)。
存储:
I/O优化实例。
支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、ESSD同城冗余云盘、SSD云盘和高效云盘。更多云盘信息,请参见块存储概述。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与计算规格对应(规格越高网络性能越强)。
ebmgn6i包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.ebmgn6i.24xlarge | 96 | 384 | NVIDIA T4 * 4 | 16GB * 4 | 30 | 450万 | 8 | 32 | 10 | 1 |
GPU计算型实例规格族gn5i
适用场景: 深度学习推理、多媒体编解码等服务器端GPU计算工作负载。
计算:
采用NVIDIA P4 GPU卡。
处理器与内存配比为1:4。
处理器:2.5 GHz主频的Intel ® Xeon ® E5-2682 v4(Broadwell)。
存储:
I/O优化实例。
支持的云盘类型:SSD云盘和高效云盘。
网络:
支持IPv4、IPv6。关于IPv6通信,参见IPv6通信。
实例网络性能与实例规格对应,规格越高网络性能越强。
gn5i包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.gn5i-c2g1.large | 2 | 8 | NVIDIA P4 * 1 | 8GB * 1 | 1 | 10万 | 2 | 2 | 6 | 1 |
ecs.gn5i-c4g1.xlarge | 4 | 16 | NVIDIA P4 * 1 | 8GB * 1 | 1.5 | 20万 | 2 | 3 | 10 | 1 |
ecs.gn5i-c8g1.2xlarge | 8 | 32 | NVIDIA P4 * 1 | 8GB * 1 | 2 | 40万 | 4 | 4 | 10 | 1 |
ecs.gn5i-c16g1.4xlarge | 16 | 64 | NVIDIA P4 * 1 | 8GB * 1 | 3 | 80万 | 4 | 8 | 20 | 1 |
ecs.gn5i-c16g1.8xlarge | 32 | 128 | NVIDIA P4 * 2 | 8GB * 2 | 6 | 120万 | 8 | 8 | 20 | 1 |
ecs.gn5i-c28g1.14xlarge | 56 | 224 | NVIDIA P4 * 2 | 8GB * 2 | 10 | 200万 | 14 | 8 | 20 | 1 |
GPU计算型实例规格族gn5
适用场景:
深度学习。
科学计算,例如计算流体动力学、计算金融学、基因组学研究、环境分析。
高性能计算、渲染、多媒体编解码及其他服务器端GPU计算工作负载。
计算:
采用NVIDIA P100 GPU卡。
多种处理器与内存配比。
处理器:2.5 GHz主频的Intel ® Xeon ® E5-2682 v4(Broadwell)。
存储:
配备高性能NVMe SSD本地盘。
I/O优化实例。
支持的云盘类型:SSD云盘和高效云盘。
网络:
仅支持IPv4
实例网络性能与实例规格对应,规格越高网络性能越强。
gn5包括的实例规格及指标数据如下表所示:
实例规格 | vCPU | 内存(GiB) | GPU | GPU显存 | 本地存储(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 |
ecs.gn5-c4g1.xlarge | 4 | 30 | NVIDIA P100 * 1 | 16GB * 1 | 440 | 3 | 30万 | 1 | 3 | 10 |
ecs.gn5-c8g1.2xlarge | 8 | 60 | NVIDIA P100 * 1 | 16GB * 1 | 440 | 3 | 40万 | 1 | 4 | 10 |
ecs.gn5-c4g1.2xlarge | 8 | 60 | NVIDIA P100 * 2 | 16GB * 2 | 880 | 5 | 100万 | 4 | 4 | 10 |
ecs.gn5-c8g1.4xlarge | 16 | 120 | NVIDIA P100 * 2 | 16GB * 2 | 880 | 5 | 100万 | 4 | 8 | 20 |
ecs.gn5-c28g1.7xlarge | 28 | 112 | NVIDIA P100 * 1 | 16GB * 1 | 440 | 5 | 225万 | 7 | 8 | 10 |
ecs.gn5-c8g1.8xlarge | 32 | 240 | NVIDIA P100 * 4 | 16GB * 4 | 1760 | 10 | 200万 | 8 | 8 | 20 |
ecs.gn5-c28g1.14xlarge | 56 | 224 | NVIDIA P100 * 2 | 16GB * 2 | 880 | 10 | 450万 | 14 | 8 | 20 |
ecs.gn5-c8g1.14xlarge | 54 | 480 | NVIDIA P100 * 8 | 16GB * 8 | 3520 | 25 | 400万 | 14 | 8 | 10 |