すべてのプロダクト
Search
ドキュメントセンター

Container Compute Service:training-nv-pytorch 25.06

最終更新日:Aug 12, 2025

このトピックでは、training-nv-pytorch 25.06 のリリースノートの概要について説明します。

主な機能とバグ修正

更新されたフレームワーク

  • PyTorch と関連コンポーネントが V2.7.1.8 にアップグレードされました

  • Triton Inference Server が V3.3.0 にアップグレードされました

  • vLLM バージョン互換性が強化され、 0.9.1 がサポートされるようになりました

  • NVIDIA の Blackwell GPU アーキテクチャのサポートが追加され、次世代ハードウェアでの将来を見据えた開発が可能になりました

バグ修正

  • PyTorch を V2.7.1.8 にアップグレードすることで、従来のコンテナイメージにおけるビデオランダムアクセスメモリ (VRAM) 最適化効率の低下が解決されました。

イメージの詳細

シナリオ

トレーニング/推論

フレームワーク

PyTorch

ドライバー要件

NVIDIA ドライバー ≥ 575 (データセンター GPU の互換性については以下を参照)

コアコンポーネント

  • Ubuntu 24.04

  • Python 3.12.7+gc

  • Torch 2.7.1.8+nv25.3

  • CUDA 12.8.0

  • ACCL-N 2.23.4.12

  • triton 3.3.0

  • TransformerEngine 2.3.0+5de3e14

  • deepspeed 0.16.9+ali

  • flash-attn 2.7.2

  • flashattn-hopper 3.0.0b1

  • transformers 4.51.2+ali

  • megatron-core 0.12.1

  • grouped_gemm 1.1.4

  • accelerate 1.7.0+ali

  • diffusers 0.31.0

  • mmengine 0.10.3

  • mmcv 2.1.0

  • mmdet 3.3.0

  • opencv-python-headless 4.10.0.84

  • ultralytics 8.3.96

  • timm 1.0.15

  • vllm 0.9.1

  • flashinfer-python 0.2.5

  • pytorch-dynamic-profiler 0.24.11

  • perf 5.4.30

  • gdb 15.0.50

  • peft 0.13.2

  • ray 2.47.1

利用可能な イメージ

V25.06

  • パブリックイメージ: egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:25.06-serverless

VPC イメージ

  • acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}

    {region-id}: Alibaba Cloud Container Compute Service (ACS) がアクティブ化されているリージョン (例: cn-beijing、cn-wulanchabu)。
    {image:tag}: イメージ名とタグ。
重要

VPC イメージのプルは、現在、中国 (北京) リージョンでのみサポートされています。

説明

このイメージは、ACS クラスタと Lingjun マルチテナントクラスタに適していますが、Lingjun シングルテナントクラスタではサポートされていません。

ドライバー要件

  • V25.06 リリースは CUDA 12.8.0 に基づいており、NVIDIA ドライバー 575 以降が必要です。 データセンター GPU (T4 など) の場合、次のドライバーバージョンと互換性があります。

    • 470.57+ (R470 ブランチ)

    • 525.85+ (R525 ブランチ)

    • 535.86+ (R535 ブランチ)

    • 545.23+ (R545 ブランチ)

  • 重要: CUDA ドライバー互換性パッケージは、特定のドライバーブランチのみをサポートしています。 互換性のないブランチ (R418、R440、R450、R460、R510、R520、R530、R545、R555、R560) を使用しているユーザーは、CUDA 12.8 との上位互換性がないため、アップグレードする必要があります。 詳細については、「CUDA 互換性」および「CUDA 互換性とアップグレード」をご参照ください。

主な機能と拡張機能

PyTorch コンパイル最適化

torch.compile() は、単一 GPU シナリオでは大幅なパフォーマンス向上を実現しますが、FSDP や DeepSpeed などの分散フレームワークが原因で、大規模 LLM トレーニングではその利点が制限されます。

  • より広範なコンパイラの最適化を実現するために、次のことを行いました。

    • DeepSpeed 内の通信粒度を最適化し、より大きく、より一貫性のある計算グラフをコンパイラに公開しました。

    • コンパイラのフロントエンドを強化して、任意のグラフの中断を処理できるようにしました。

    • 安定したコンパイルパフォーマンスのために、パターンマッチングと動的形状のサポートを改善しました。

結果: 8B パラメータ LLM トレーニングで、エンドツーエンド (E2E) スループットが約 20% 一貫して向上しました。

勾配チェックポイントの最適化

モデル、クラスタ構成、システムメトリック (メモリ使用率を含む) にわたる広範なベンチマークを通じて、最適なアクティベーション再計算レイヤーを特定するための予測モデルを開発しました。 この最適化は PyTorch にネイティブに統合され、DeepSpeed でサポートされるようになったため、高度なメモリ最適化手法を簡単に採用できます。

ACCL

Alibaba Cloud Communication Library (ACCL) は、Lingjun 向けに設計された高性能ネットワーキング (HPN) ライブラリのスイートです。

その主要コンポーネントの 1 つは ACCL-N で、これは NVIDIA Collective Communications Library (NCCL) からカスタマイズされた GPU アクセラレーション通信ライブラリです。 ACCL-N は NCCL との完全な API 互換性を維持しながら、いくつかの拡張機能を提供します。

  • パフォーマンスの向上: 特に大規模なマルチノードトレーニング環境において、スループットの大幅な向上と安定性の向上を実現します。

  • 安定性の向上: 標準の NCCL バージョンではまだ利用できない、対象を絞ったバグ修正が含まれています。

E2E パフォーマンスゲイン評価

Cloud Native Platform (CNP) AI パフォーマンス分析ツールを使用して、標準ベースイメージ (NGC PyTorch など) との包括的な E2E 比較を実施しました。 テストでは、主流のオープンソースモデルとフレームワークを使用し、各最適化の貢献度を定量化するためのアブレーションスタディを行いました。

テスト構成 (マルチノード GPU クラスタ)

テストケース

構成

1. ベースライン

NGC PyTorch イメージ

2. ACS AI イメージ: Base + ACCL

ACCL 通信ライブラリを使用したベースイメージ

3. ACS AI イメージ: AC2+ACCL

AC2 BaseOS を使用したゴールデンイメージ (最適化なし)

4. ACS AI イメージ: AC2 + ACCL + CompilerOpt

torch.compile 最適化を有効にした AC2 BaseOS

5. ACS AI イメージ: AC2 + ACCL + CompilerOpt + CkptOpt

torch.compile と選択的勾配チェックポイントの両方の最適化を有効にした AC2 BaseOS

image.png

クイックスタート

この例では、Docker を使用して training-nv-pytorch イメージをプルして実行します。

説明

ACS ユーザーの場合: ACS にデプロイする場合は、コンソールの [アーティファクトセンター] からイメージを選択するか、YAML 構成でイメージを指定します。

1. イメージをプルする

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:[tag]

2. コンパイラとメモリ最適化を有効にする

  • Transformers Trainer API を使用したコンパイル最適化

    image.png

  • 勾配チェックポイントの最適化を有効にする

    export CHECKPOINT_OPTIMIZATION=true

3. コンテナを起動する

イメージには、組み込みトレーニングツール ljperf が含まれています。

LLM トレーニングの例

# コンテナを起動する
docker run --rm -it --ipc=host --net=host  --privileged egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:[tag]

# トレーニングデモを実行する
ljperf benchmark --model deepspeed/llama3-8b 

4. 使用上の推奨事項

  • PyTorch、DeepSpeed、または関連ライブラリを再インストールしないでください。イメージには、事前に最適化されたバイナリが含まれています。

  • deepspeed 構成では、zero_optimization.stage3_prefetch_bucket_size を空のままにするか、auto に設定します。

  • イメージは NCCL_SOCKET_IFNAME を事前に設定します。

    • 単一のポッドがトレーニング/推論タスクに 1/2/4/8 カードを要求する場合、NCCL_SOCKET_IFNAME=eth0 を設定します。 これはイメージのデフォルト構成です。

    • 16 GPU ノードトレーニングの場合: HPN を活用するには、NCCL_SOCKET_IFNAME=hpn0 を手動で設定します。

既知の問題

報告されていません。