すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:機能

最終更新日:Jul 22, 2024

PAI-Lingjun AI Computing Service (Lingjun) は、AIやハイパフォーマンスコンピューティングなどのコンピューティング集約型のシナリオで必要とされる高性能コンピューティング能力を提供します。 高性能で大規模なプールされたコンピューティングパワーを実装して、自動運転、科学研究、金融、バイオ医薬品の研究開発などの業界の異種コンピューティングパワー要件を満たします。 このトピックでは、Lingjunの機能について説明します。

高速RDMAネットワークアーキテクチャ

Alibaba Groupは、RDMAを変革し、データ伝送パフォーマンスを向上させるために、2016以来、リモートダイレクトメモリアクセス (RDMA) に関する特別な研究に投資してきました。 Alibaba Groupは、大規模なデータセンターに高速ネットワークを構築しました。これにより、レイテンシーを90% 削減し、Alibaba Cloudサービスと、高性能ストレージやAIコンピューティングなどのAlibaba Groupの内部サービスをサポートします。

、RDMAネットワークの大規模なデプロイメントの実践に支えられて、アリババクラウドは、クライアントとネットワークのコラボレーションに基づく輻輳制御のための高性能RDMAプロトコルおよびhigh performance Computing and Communications (HPCC) アルゴリズムを独自に開発した。 Alibaba Cloudは、インテリジェントネットワークインターフェイスコントローラー (NIC) に基づくプロトコルを介したハードウェアオフロードも実装し、エンドツーエンドのネットワーク遅延を削減し、ネットワークI/Oスループットを改善し、ネットワーク障害やブラックホールなどの従来のネットワーク例外によって引き起こされる上位層アプリケーションのパフォーマンス損失を効果的に削減および防止します。

高性能ACCL

Lingjunは、高性能のAlibaba Collective Communication Library (ACCL) をサポートしています。 ACCLは、vSwitchなどのハードウェアとともに使用して、数万のGPUを含むAIクラスターに輻輳のない高性能な通信機能を提供できます。

AIクラスターでは、レイテンシは主にクラスター間の通信によって発生します。 ネットワークの輻輳を防ぐために、高速RDMAネットワークを構築し、適切な通信スケジューリングを実行できます。 Alibaba Cloudは、ACCLを使用して、GPUとNICのインテリジェントマッチング、ノード内外の物理トポロジの自動識別、およびトポロジ認識スケジューリングアルゴリズムを実装しています。 これにより、ネットワークの輻輳が解消され、ネットワーク通信が容易になり、分散トレーニングシステムの弾力性が向上します。 数万個のGPUを含むAIクラスターの場合、クラスターの線形読み取り容量は80% を超える可能性があります。 数百のGPUを含むAIクラスターの場合、クラスターのコンピューティングパフォーマンスは95% を超える可能性があり、80% を超えるビジネスシナリオの要件を満たすことができます。

高パフォーマンスKSpeedでデータのプリロードを高速化

Lingjunは、高性能RDMAネットワークと高性能ACCLに基づいて、高性能KSpeedを開発し、データのプリロードを高速化してインテリジェントデータI/Oを最適化します。

Compute-ストレージ分離アーキテクチャは、AI、高性能コンピューティング、およびビッグデータのビジネスシナリオで広く使用されています。 しかし、大量のトレーニングデータのロードは、効率のボトルネックを引き起こす。 Alibaba CloudはKSpeedを使用してデータI/Oパフォーマンスを向上させます。

たとえば、特定のシナリオでは、データの読み込みに費やされる時間は、トレーニング時間の合計量の60% を超える時間を占める可能性があります。 KSpeedは、データを事前にメモリにプリロードできます。 このようにして、データの読み込みにかかる時間は、トレーニング時間の合計量の10% 未満に削減されます。これは、単位時間あたりの計算パフォーマンスが2倍になることに相当します。

eGPU for GPU-accelerated containers

Lingjunは、ビジネスシナリオで発生する可能性のあるAIタスク、GPUハードウェアリソースの高コスト、GPU使用率の低さなどの問題を解決するために、AIクラスターのGPU使用率を効果的に改善できるGPU仮想化テクノロジであるeGPUをサポートしています。 eGPUには次の利点があります。

  • ビデオメモリと計算能力に基づくGPU分離をサポートします。

  • 複数の仕様をサポートします。

  • 動的な作成と破壊をサポートします。

  • ホットアップグレードをサポートします。

  • ユーザーモード技術をサポートし、より高い信頼性を確保します。