すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:DLC の概要

最終更新日:Nov 07, 2025

Deep Learning Containers (DLC) は、単一ノードまたは分散トレーニングジョブを迅速に作成するのに役立ちます。Kubernetes を使用して計算ノードを起動し、既存のワークフローを中断することなく、手動でマシンをプロビジョニングしたり、ランタイム環境を構成したりする必要がなくなります。複数の深層学習フレームワークをサポートし、柔軟なリソース構成オプションを提供するため、DLC は迅速なトレーニングジョブのデプロイメントに最適です。

利点

  • 多様な計算リソース:

    Lingjun AI Computing Service と汎用計算リソース上に構築された DLC は、Elastic Compute Service (ECS)、Elastic Container Instance (ECI)、Shenlong Bare Metal Instances、Lingjun ベアメタルインスタンスなど、さまざまなコンピューティングインスタンスタイプをサポートしています。これにより、異種コンピューティングのハイブリッドスケジューリングが可能になります。

  • 分散ジョブタイプ:

    DLC は、独自のクラスターを構築することなく、Megatron、DeepSpeed、PyTorch、TensorFlow、Slurm、Ray、MPI、XGBoost など、10 を超えるトレーニングフレームワークをサポートしています。DLC は、さまざまな公式イメージを提供し、カスタムランタイム環境をサポートします。コンソール、SDK、またはコマンドラインを使用してジョブを送信でき、AI トレーニングのための包括的なソリューションとなっています。

  • 高い安定性:

    LLM トレーニングのために、DLC は独自のフォールトトレランスエンジン (AIMaster)、高性能チェックポイントフレームワーク (EasyCKPT)、ヘルスチェック機能 (SanityCheck)、およびノード自己修復機能を使用します。これらの機能は、迅速な検出、正確な診断、高速なフィードバックを提供します。このアプローチにより、安定性の問題が解決され、計算能力の損失が減少し、トレーニングの信頼性が向上します。

  • 高性能:

    独自の AI トレーニングアクセラレーションフレームワークにより、分散トレーニングの効率が向上します。データ並列処理、パイプライン並列処理、オペレーター分割、ネストされた並列処理など、統一された並列アクセラレーション戦略を実装します。このフレームワークは、自動並列戦略探索と多次元メモリ最適化を、高速ネットワーク上でのトポロジーを意識したスケジューリングと組み合わせています。分散通信ライブラリのさらなる最適化には、通信スレッドプール、勾配グルーピング、混合精度通信、勾配圧縮が含まれます。これらの最適化により、特に大規模モデルの事前トレーニング、継続的なトレーニング、アライメントにおいて、高度に最適化されたトレーニングエンジンが作成されます。

リソースタイプ

Deep Learning Containers (DLC) を通じてトレーニングジョブを送信すると、Platform for AI (PAI) は、ユースケースと計算能力の要件に基づいて、次の 2 つのリソースタイプを提供します:

  • Lingjun AI Computing Service: このサービスは、大規模モデルトレーニングや、大規模な計算リソースを必要とするその他のディープラーニングタスク向けに設計されています。ハードウェアとソフトウェアの協調最適化に基づいて、超大規模なディープラーニングと統合 AI コンピューティングのために設計されています。高性能な異種コンピューティング基盤とエンドツーエンドの AI エンジニアリング機能を提供します。その主な利点は、高性能、高効率、高利用率であり、大規模モデルトレーニング、自動運転、基礎研究、金融などの分野の要求に応えます。

  • 汎用計算リソース: これらのリソースは、標準的なトレーニングニーズに適しており、さまざまな規模や種類の機械学習タスクをサポートします。

Lingjun AI Computing Service と汎用計算リソースは、次の購入オプションを通じて利用できます:

  • リソースクォータ: AI の開発とトレーニングのために、サブスクリプションベースで Lingjun AI Computing Service または汎用計算リソースを事前に購入できます。このモデルにより、柔軟なリソース管理と効率的な使用が可能になります。

  • パブリックリソース: トレーニングジョブを送信する際に、事前に購入することなく、オンデマンドで Lingjun AI Computing Service または汎用計算リソースを使用できます。従量課金ベースで請求されます。

  • プリエンプティブルリソース: Lingjun AI Computing Service はプリエンプティブルインスタンスを提供しており、これにより AI 計算能力をより低コストで取得し、全体的なジョブ費用を削減できます。

シナリオ

  • データ前処理

    ランタイム環境をカスタマイズしてデータに対してオフラインの並列前処理を実行でき、データの前処理を大幅に簡素化します。

  • 大規模分散トレーニング

    さまざまなオープンソースの深層学習フレームワークを使用して、オフラインの大規模分散トレーニングを実施できます。DLC は数千のノードでの同時トレーニングをサポートし、トレーニング時間を大幅に短縮します。

  • オフライン推論

    DLC を使用して、モデルに対してオフライン推論を実行できます。このアプローチにより、アイドル期間中の GPU 使用率が向上し、リソースの無駄が削減されます。

参考資料