全部产品
Search
文档中心

Container Compute Service:training-nv-pytorch 25.11

更新时间:Dec 30, 2025

Topik ini menjelaskan catatan rilis untuk training-nv-pytorch versi 25.11.

Fitur utama dan perbaikan bug

Fitur utama

  • Mendukung berbagai arsitektur, termasuk amd64 dan aarch64, serta versi CUDA 13.0.2 dan 12.8.

  • Komponen inti seperti PyTorch ditingkatkan ke versi 2.9 untuk menyelaraskan dengan pembaruan komunitas.

  • Komponen pelatihan inti ditingkatkan. Transformers ditingkatkan ke 4.57.1, DeepSpeed ke 0.18.1, dan TransformerEngine ke 2.8. Dukungan untuk Qwen3-VL ditambahkan.

  • Komponen inferensi inti VLLM ditingkatkan ke 0.11.2.

Perbaikan bug

Tidak ada

Isi

Skenario Aplikasi

Pelatihan/Inferensi

Framework

PyTorch

Persyaratan

NVIDIA Driver release >= 580

NVIDIA Driver release >= 575

Arsitektur

amd64 & aarch64

amd64

Komponen inti

  • Ubuntu : 24.04

  • Python : 3.12.7+gc

  • CUDA : 13.0

  • perf : 5.4.30

  • gdb : 15.0.50

  • torch : 2.9.0+ali.10.nv25.10

  • triton : 3.5.0

  • transformer_engine : 2.9.0+70f53666

  • deepspeed : 0.18.1+ali

  • flash_attn : 2.8.3

  • transformers : 4.57.1+ali

  • grouped_gemm : 1.1.4

  • accelerate : 1.11.0+ali

  • diffusers : 0.34.0

  • mmengine : 0.10.3

  • mmcv : 2.1.0

  • mmdet : 3.3.0

  • opencv-python-headless : 4.11.0.86

  • ultralytics : 8.3.96

  • timm : 1.0.22

  • vllm : 0.11.2+cu130

  • flashinfer-python : 0.5.2

  • pytorch-dynamic-profiler : 0.24.11

  • peft : 0.16.0

  • ray : 2.52.0

  • megatron-core : 0.14.0

  • Ubuntu : 24.04

  • Python : 3.12.7+gc

  • CUDA : 12.8

  • perf : 5.4.30

  • gdb : 15.0.50

  • torch : 2.8.0.9+nv25.3

  • triton : 3.4.0

  • transformer_engine : 2.9.0

  • deepspeed : 0.18.1+ali

  • flash_attn : 2.8.3

  • flash_attn_3 : 3.0.0b1

  • transformers : 4.57.1+ali

  • grouped_gemm : 1.1.4

  • accelerate : 1.11.0+ali

  • diffusers : 0.34.0

  • mmengine : 0.10.3

  • mmcv : 2.1.0

  • mmdet : 3.3.0

  • opencv-python-headless : 4.11.0.86

  • ultralytics : 8.3.96

  • timm : 1.0.22

  • vllm : 0.11.2

  • flashinfer-python : 0.5.2

  • pytorch-dynamic-profiler : 0.24.11

  • peft : 0.16.0

  • ray : 2.52.0

  • megatron-core : 0.14.0

Aset

Citra jaringan publik

CUDA 13.0.2 (Driver >=580, amd64 & aarch64)

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:25.11-cu130-serverless

CUDA 12.8 (Driver>= 575, amd64)

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:25.11-cu128-serverless

Citra VPC

Untuk mempercepat pengambilan citra kontainer AI ACS dari dalam VPC, ganti URI Aset egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/{image:tag} dengan acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}.

  • {region-id}: ID wilayah wilayah yang tersedia tempat Produk ACS Anda berada. Contohnya, cn-beijing dan cn-wulanchabu.

  • {image:tag}: Nama dan tag citra kontainer AI. Contohnya, inference-nv-pytorch:25.10-vllm0.11.0-pytorch2.8-cu128-20251028-serverless dan training-nv-pytorch:25.10-serverless.

Catatan

Citra ini cocok untuk produk multi-tenant ACS dan Lingjun. Jangan gunakan citra ini untuk produk single-tenant Lingjun atau dalam skenario single-tenant Lingjun.

Persyaratan driver

  • Rilis 25.11 mendukung CUDA 12.8.0 dan CUDA 13.0.2, yang memiliki persyaratan versi driver berbeda. CUDA 13.0.2 memerlukan versi driver NVIDIA 580 atau lebih baru, sedangkan CUDA 12.8.0 memerlukan versi driver NVIDIA 575 atau lebih baru. Untuk daftar lengkap driver yang didukung, lihat CUDA Application Compatibility. Untuk informasi selengkapnya, lihat CUDA Compatibility and Upgrades.

Fitur dan peningkatan utama

Optimasi kompilasi PyTorch

Fitur optimasi kompilasi yang diperkenalkan di PyTorch 2.0 cocok untuk pelatihan skala kecil pada satu GPU. Namun, pelatihan LLM memerlukan optimasi Memori GPU dan framework terdistribusi, seperti FSDP atau DeepSpeed. Akibatnya, torch.compile() tidak memberikan manfaat bagi pelatihan Anda atau bahkan dapat berdampak negatif.

  • Mengontrol granularitas komunikasi dalam framework DeepSpeed membantu kompilator memperoleh graf komputasi lengkap untuk cakupan optimasi kompilasi yang lebih luas.

  • PyTorch yang dioptimalkan:

    • Antarmuka depan kompilator PyTorch dioptimalkan untuk memastikan kompilasi tetap berjalan meskipun terjadi gangguan graf dalam graf komputasi.

    • Kemampuan pencocokan mode dan bentuk dinamis ditingkatkan untuk mengoptimalkan kode hasil kompilasi.

Setelah optimasi tersebut, throughput E2E meningkat sebesar 20% saat melatih LLM 8B.

Optimasi Memori GPU untuk recomputation

Kami memprediksi dan menganalisis konsumsi Memori GPU model dengan menjalankan pengujian kinerja pada model yang diterapkan di kluster berbeda atau dikonfigurasi dengan parameter berbeda serta mengumpulkan metrik sistem, seperti pemanfaatan Memori GPU. Berdasarkan hasil tersebut, kami menyarankan jumlah optimal lapisan recomputation aktivasi dan mengintegrasikannya ke dalam PyTorch. Hal ini memungkinkan pengguna dengan mudah memperoleh manfaat dari optimasi Memori GPU. Saat ini, fitur ini dapat digunakan dalam framework DeepSpeed.

Evaluasi manfaat kinerja E2E

Menggunakan CNP, tool evaluasi dan analisis kinerja AI cloud-native, kami melakukan perbandingan kinerja end-to-end (E2E) secara komprehensif. Kami menggunakan model open source utama dan konfigurasi framework, lalu membandingkannya dengan citra dasar standar. Kami juga melakukan eksperimen ablation untuk mengevaluasi kontribusi setiap komponen yang dioptimalkan terhadap kinerja pelatihan model secara keseluruhan.

Perbandingan citra: Citra dasar dan evaluasi iterasi

image.png

Analisis kontribusi kinerja E2E komponen GPU inti

Pengujian berikut didasarkan pada Golden-25.11. Kami melakukan evaluasi dan analisis perbandingan kinerja pelatihan E2E pada kluster GPU multi-node. Item berikut dibandingkan:

  1. Base: NGC PyTorch Image.

  2. ACS AI Image: Base+ACCL: Citra ini menggunakan library komunikasi ACCL.

  3. ACS AI Image: AC2+ACCL: Citra Golden menggunakan AC2 BaseOS tanpa optimasi yang diaktifkan.

  4. ACS AI Image: AC2+ACCL+CompilerOpt: Citra Golden menggunakan AC2 BaseOS dengan hanya optimasi torch compile yang diaktifkan.

  5. ACS AI Image: AC2+ACCL+CompilerOpt+CkptOpt: Citra Golden menggunakan AC2 BaseOS dengan optimasi torch compile dan selective gradient checkpoint yang diaktifkan.

image.png

Memulai cepat

Contoh berikut menunjukkan cara menarik citra training-nv-pytorch menggunakan Docker.

Catatan

Untuk menggunakan citra training-nv-pytorch di ACS, Anda dapat memilihnya dari halaman Artifacts di Konsol saat membuat workload, atau menentukan referensi citra dalam file YAML.

1. Pilih citra

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:[tag]

2. Panggil API untuk mengaktifkan kompiler dan recomputation untuk optimasi Memori GPU

  • Aktifkan optimasi kompilasi

    Gunakan API Trainer transformers:

    image.png

  • Aktifkan recomputation untuk optimasi Memori GPU

    export CHECKPOINT_OPTIMIZATION=true

3. Mulai kontainer

Citra ini memiliki tool pelatihan model bawaan bernama ljperf. Langkah-langkah berikut menunjukkan cara menggunakan tool ini untuk memulai kontainer dan menjalankan pekerjaan pelatihan.

Model LLM

# Mulai dan masuk ke kontainer
docker run --rm -it --ipc=host --net=host  --privileged egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:[tag]

# Jalankan demo pelatihan
ljperf benchmark --model deepspeed/llama3-8b 

4. Rekomendasi

  • Perubahan dalam citra ini melibatkan library seperti PyTorch dan DeepSpeed. Jangan instal ulang library tersebut.

  • Dalam konfigurasi DeepSpeed, biarkan `zero_optimization.stage3_prefetch_bucket_size` kosong atau atur ke `auto`.

  • Variabel lingkungan bawaan NCCL_SOCKET_IFNAME dalam citra ini harus disesuaikan berdasarkan skenario Anda:

    • Jika satu pod meminta 1, 2, 4, atau 8 kartu untuk tugas pelatihan atau inferensi, atur NCCL_SOCKET_IFNAME=eth0. Ini adalah konfigurasi default dalam citra ini.

    • Jika satu pod meminta semua 16 kartu pada satu mesin untuk tugas pelatihan atau inferensi, Anda dapat menggunakan High-Performance Network (HPN). Dalam kasus ini, atur NCCL_SOCKET_IFNAME=hpn0.

Isu yang diketahui

Mengompilasi fa3 secara langsung dalam citra CUDA 13.0.2 menyebabkan error. Ini merupakan isu komunitas yang diketahui.