DLC の概念、利点、シナリオ - Platform For AI - Alibaba Cloud ドキュメントセンター

Deep Learning Containers (DLC) は、単一ノードまたは分散トレーニングジョブを迅速に作成するのに役立ちます。Kubernetes を使用して計算ノードを起動し、既存のワークフローを中断することなく、手動でマシンをプロビジョニングしたり、ランタイム環境を構成したりする必要がなくなります。複数の深層学習フレームワークをサポートし、柔軟なリソース構成オプションを提供するため、DLC は迅速なトレーニングジョブのデプロイメントに最適です。

利点

多様な計算リソース:
Lingjun AI Computing Service と汎用計算リソース上に構築された DLC は、Elastic Compute Service (ECS)、Elastic Container Instance (ECI)、Shenlong Bare Metal Instances、Lingjun ベアメタルインスタンスなど、さまざまなコンピューティングインスタンスタイプをサポートしています。これにより、異種コンピューティングのハイブリッドスケジューリングが可能になります。
分散ジョブタイプ:
DLC は、独自のクラスターを構築することなく、Megatron、DeepSpeed、PyTorch、TensorFlow、Slurm、Ray、MPI、XGBoost など、10 を超えるトレーニングフレームワークをサポートしています。DLC は、さまざまな公式イメージを提供し、カスタムランタイム環境をサポートします。コンソール、SDK、またはコマンドラインを使用してジョブを送信でき、AI トレーニングのための包括的なソリューションとなっています。
高い安定性:
LLM トレーニングのために、DLC は独自のフォールトトレランスエンジン (AIMaster)、高性能チェックポイントフレームワーク (EasyCKPT)、ヘルスチェック機能 (SanityCheck)、およびノード自己修復機能を使用します。これらの機能は、迅速な検出、正確な診断、高速なフィードバックを提供します。このアプローチにより、安定性の問題が解決され、計算能力の損失が減少し、トレーニングの信頼性が向上します。
高性能:
独自の AI トレーニングアクセラレーションフレームワークにより、分散トレーニングの効率が向上します。データ並列処理、パイプライン並列処理、オペレーター分割、ネストされた並列処理など、統一された並列アクセラレーション戦略を実装します。このフレームワークは、自動並列戦略探索と多次元メモリ最適化を、高速ネットワーク上でのトポロジーを意識したスケジューリングと組み合わせています。分散通信ライブラリのさらなる最適化には、通信スレッドプール、勾配グルーピング、混合精度通信、勾配圧縮が含まれます。これらの最適化により、特に大規模モデルの事前トレーニング、継続的なトレーニング、アライメントにおいて、高度に最適化されたトレーニングエンジンが作成されます。

リソースタイプ

Deep Learning Containers (DLC) を通じてトレーニングジョブを送信すると、Platform for AI (PAI) は、ユースケースと計算能力の要件に基づいて、次の 2 つのリソースタイプを提供します:

Lingjun AI Computing Service: このサービスは、大規模モデルトレーニングや、大規模な計算リソースを必要とするその他のディープラーニングタスク向けに設計されています。ハードウェアとソフトウェアの協調最適化に基づいて、超大規模なディープラーニングと統合 AI コンピューティングのために設計されています。高性能な異種コンピューティング基盤とエンドツーエンドの AI エンジニアリング機能を提供します。その主な利点は、高性能、高効率、高利用率であり、大規模モデルトレーニング、自動運転、基礎研究、金融などの分野の要求に応えます。
汎用計算リソース: これらのリソースは、標準的なトレーニングニーズに適しており、さまざまな規模や種類の機械学習タスクをサポートします。

Lingjun AI Computing Service と汎用計算リソースは、次の購入オプションを通じて利用できます:

リソースクォータ: AI の開発とトレーニングのために、サブスクリプションベースで Lingjun AI Computing Service または汎用計算リソースを事前に購入できます。このモデルにより、柔軟なリソース管理と効率的な使用が可能になります。
パブリックリソース: トレーニングジョブを送信する際に、事前に購入することなく、オンデマンドで Lingjun AI Computing Service または汎用計算リソースを使用できます。従量課金ベースで請求されます。
プリエンプティブルリソース: Lingjun AI Computing Service はプリエンプティブルインスタンスを提供しており、これにより AI 計算能力をより低コストで取得し、全体的なジョブ費用を削減できます。

シナリオ

データ前処理
ランタイム環境をカスタマイズしてデータに対してオフラインの並列前処理を実行でき、データの前処理を大幅に簡素化します。
大規模分散トレーニング
さまざまなオープンソースの深層学習フレームワークを使用して、オフラインの大規模分散トレーニングを実施できます。DLC は数千のノードでの同時トレーニングをサポートし、トレーニング時間を大幅に短縮します。
オフライン推論
DLC を使用して、モデルに対してオフライン推論を実行できます。このアプローチにより、アイドル期間中の GPU 使用率が向上し、リソースの無駄が削減されます。

参考資料

トレーニングタスクの作成: コンソール、SDK、またはコマンドラインを通じてトレーニングジョブを送信し、主要なパラメーターを構成する方法を学びます。
DLC のユースケース: 実践的な例を通じて DLC の使用方法を学びます。