What is PAI-Lingjun - Platform For AI - Alibaba Cloud ドキュメントセンター

PAI-Lingjun（別名：PAI-Lingjun AI Computing Service）は、高性能AIトレーニングおよびHPCワークロード向けの大規模なヘテロジニアスな計算能力を提供します。このフルマネージドサービスは、分散トレーニング向けの組み込み最適化を備えた、高度にスケーラブルで高性能なインテリジェントコンピューティング基盤を提供し、コンピュートノード、ストレージシステム、およびRDMAネットワークの構築と保守に伴う複雑さを解消します。コンピュータビジョン、Natural Language Processing、レコメンデーションシステム、および大規模言語モデル（LLM）を含む大規模AIシナリオ向けに設計されており、PAI-Lingjunは、自動運転、金融サービス、医薬品研究、科学技術計算、およびエンタープライズSaaSアプリケーションなどの業界に対して、柔軟な従量課金制でサービスを提供します。

サービスアーキテクチャ

PAI-Lingjun は、ハードウェアとソフトウェアを完全に統合したコンピューティングクラスターソリューションを提供します。ハードウェアレイヤーは、Panjiu サーバー、パフォーマンス専有型ネットワーク、分散ストレージ、および包括的なクラスター管理機能で構成されています。ソフトウェアスタックは、Resource Orchestration Service、インテリジェントな運用管理、AI アクセラレーションライブラリ、クラウドネイティブなワークロードスケジューリング、および PyTorch や TensorFlow などの主要なフレームワークをサポートする完全な開発プラットフォームを提供します。
PAI-Lingjun のコアハードウェアコンポーネントは、Panjiu サーバーとパフォーマンス専有型 RDMA ネットワークです。
- Alibaba Cloud が開発した Panjiu サーバーは、CPU、メモリ、ストレージ、GPU の各サブシステムにわたる多層的な構成最適化により、最適なハードウェアパフォーマンスを実現します。
- ネットワークアーキテクチャは、TCP/IP および RDMA プロトコルをサポートする Fat-Tree トポロジーを採用しています。PAI-Lingjun は、25 Gbps と 100 Gbps のネットワークを個別に運用しています。25 Gbps ネットワークはインバンドのサーバー管理を処理し、複数の NIC を備えた 100 Gbps ネットワークは高スループットの AI トレーニング通信を可能にします。デュアルアップリンクネットワークにより高可用性を実現します。各 NIC は 2 つの独立したスイッチに接続され、リンク障害発生時には自動フェールオーバーによってネットワーク接続が維持されます。
ソフトウェアアーキテクチャは、基盤レイヤーのリソース管理から、アクセラレーションライブラリ、ML/DL フレームワーク、開発環境、そしてアプリケーション層のワークロードオーケストレーションまで、階層化された機能スタックを提供します。
- PAI-Lingjun は、リソースのパーティショニングとスケジューリングに Docker コンテナ化を使用し、Kubernetes オーケストレーションとのネイティブな互換性を備えています。
- Apsara インフラストラクチャ管理フレームワークは、コンピュート、ネットワーク、ストレージリソースを含むクラスターインフラストラクチャのリアルタイムモニタリングと運用管理を提供します。
- アクセラレーションライブラリは、PAI-Lingjun クラスター通信用にカスタム最適化されており、分散トレーニングワークロードのパフォーマンスを向上させます。
- このプラットフォームは、ジョブの送信とログの監視のための Web ベースのインターフェイスを提供し、PyTorch、TensorFlow、その他の主要な AI フレームワークをネイティブにサポートしています。

PAI-Lingjun を選ぶ理由

PAI-Lingjun は、以下の機能を備えたエンタープライズグレードのインテリジェントコンピューティングクラスターを提供します。

サービスとしてのコンピューティング。数万の GPU をサポートする弾力的なスケーラビリティ、最大 4 Pbps のシングルクラスターネットワークスループット、2 マイクロ秒の超低レイテンシーを備えた、パフォーマンス専有型のヘテロジニアスコンピューティングを提供します。
高いリソース効率。リソース使用率を 3 倍に向上させ、分散ワークロードに対して 90% 以上の並列計算効率を維持します。
統合コンピューティングプール。共有コンピューティングインフラストラクチャ全体で AI と HPC ワークロードのシームレスな統合と統一されたスケジューリングを可能にします。
包括的な監視と管理。ヘテロジニアスコンピューティング専用に構築されたエンタープライズ運用プラットフォームを提供し、ハードウェアリソースからワークロードのパフォーマンス、使用率メトリックまで、エンドツーエンドの可視性を実現します。

メリット

AI イノベーションの加速。フルスタックのパフォーマンス最適化により、計算集約型ワークロードの反復効率が 2 倍以上に向上します。
ROI の最大化。プール化されたヘテロジニアスコンピューティングリソースのインテリジェントなスケジューリングにより、最適な使用率が確保され、従来のデプロイメントと比較して効率が最大 3 倍向上します。
無制限のスケーリング。大規模言語モデルや大規模シミュレーションの厳しい計算要件を満たし、利用可能なコンピューティングリソースによってイノベーションが制約されることがないようにします。
完全な可視性と制御。継続的な監視および最適化機能を使用してヘテロジニアスコンピューティングリソースの割り当てを管理し、持続的なパフォーマンスを実現します。

利用シーン

PAI-Lingjun は、コンピュータビジョン、Natural Language Processing、推奨システム、大規模言語モデル (LLM) などの大規模な分散 AI ワークロード向けに特別に構築されており、自動運転、金融サービス、製薬研究、科学計算、エンタープライズ SaaS アプリケーションなどの業界にサービスを提供します。

大規模分散トレーニング。
- 超大規模 GPU 計算能力システム。
  
  完全なリソースプーリングを備えたピアツーピアネットワークアーキテクチャは、Platform for AI (PAI) とシームレスに統合され、PyTorch、TensorFlow、Caffe、Keras、XGBoost、MXNet をサポートし、あらゆる規模の AI トレーニングと推論に対応します。
- AI インフラストラクチャ。
  - スムーズなスケールアウト。小規模なクラスターから大規模なデプロイメントまで、あらゆる規模の GPU コンピューティング要件を満たすために、線形パフォーマンススケーリングを提供します。
  - インテリジェントなデータアクセラレーション。トレーニングデータをアクティブにプリフェッチして AI ワークロードのデータ I/O を最適化し、トレーニング効率を大幅に向上させます。
  - 最大限のリソース使用率。ヘテロジニアスリソースのきめ細かな制御により、リソースの回転率とクラスター全体の効率が向上します。
自動運転。
- 豊富なデプロイメントおよびスケジューリングポリシー。
  
  複数の GPU スケジューリングポリシーにより、効率的なタスク実行が保証されます。Cloud Parallel File Storage (CPFS) と RDMA ネットワークの組み合わせにより、トレーニングワークロード向けの高スループットなデータアクセスが実現します。OSS 階層化ストレージは、アーカイブされたデータセットのコストを削減します。
- トレーニングとシミュレーションの両方のシナリオをサポート。
  
  統合されたコンピューティングインフラストラクチャは、トレーニングとシミュレーションの両方のワークロードをサポートし、統合されたワークフローを通じて反復効率を向上させ、データ移行コストを削減します。
AI for Science。
- イノベーションの限界を押し広げる。
  
  高度なフロー制御技術を備えた超大規模 RDMA ネットワークにより、マイクロ秒レベルのエンドツーエンドレイテンシーを実現します。線形スケーリングは、数万の GPU にわたる並列計算をサポートします。
- エコシステムを統合し、イノベーションの境界を拡大する。
  
  HPC と AI ワークロードの統一されたスケジューリングは、科学研究のための協調的な基盤を提供し、エコシステム統合と技術の収束を促進します。
- クラウドベースの研究、包括的な計算能力。
  
  クラウドネイティブなコンテナ化エコシステムにより、AI および HPC アプリケーションの深いリソース共有が可能になり、インテリジェントコンピューティングリソースへのアクセスが民主化されます。

特徴

高速 RDMA ネットワークアーキテクチャ。2016 年以来の Alibaba Cloud の広範な RDMA 研究に基づいて構築され、エンタープライズグレードのネットワークパフォーマンスを提供します。

Alibaba Cloud は、データセンター全体で大規模な RDMA ネットワークを運用しています。広範なデプロイメント経験を活用し、エンドツーエンドのコラボレーションと HPCC 輻輳制御を備えたパフォーマンス専有型 RDMA プロトコルを開発し、インテリジェント NIC ハードウェアオフロードを介して実装しました。このアーキテクチャは、ネットワーク遅延を削減し、I/O スループットを向上させ、ネットワーク障害やパケット損失によるパフォーマンスの低下を軽減します。
Alibaba Collective Communication Library (ACCL)。PAI-Lingjun は、パフォーマンス専有型の集合通信のために ACCL を統合しています。ネットワークスイッチハードウェアと組み合わせることで、ACCL は数万の GPU を持つ AI クラスターに輻輳のない通信を提供します。ACCL は、インテリジェントな GPU-NIC マッチング、自動物理トポロジー検出、およびトポロジーを意識した輻輳フリーアルゴリズムを特徴としています。これにより、ネットワーク輻輳が解消され、通信効率が最大化され、分散トレーニングのスケーラビリティが向上します。10,000 以上の GPU スケールで、ACCL は 80% 以上の線形クラスター効率を達成します。100 以上の GPU スケールでは、計算効率は 95% を超え、本番ワークロード要件の 80% 以上を満たします。
KSpeed データプリロードアクセラレーション。PAI-Lingjun は、パフォーマンス専有型 RDMA ネットワークと ACCL を活用して、パフォーマンス専有型データプリロードのためのインテリジェントなデータ I/O 最適化ソリューションである KSpeed を提供します。AI、HPC、ビッグデータワークロードに共通のコンピューティングとストレージが分離されたアーキテクチャでは、大規模なトレーニングデータセットの読み込みが効率のボトルネックになることがよくあります。KSpeed は、データ I/O パフォーマンスを桁違いに向上させます。
eGPU 仮想化技術。大規模な AI ワークロードの需要、高い GPU ハードウェアコスト、低いクラスター使用率などの課題に対処するため、PAI-Lingjun は eGPU コンテナ仮想化を提供します。eGPU は、以下の機能を通じてクラスターの GPU 使用率を向上させます。
- VRAM と計算能力の両方に基づく柔軟なパーティショニング。
- 複数の仕様のサポート。
- 動的な作成と破棄。
- ホットアップグレード。
- より高い信頼性のためのユーザーモード技術。

PAI-Lingjun ネットワークの制限事項

制限事項	制限	クォータの引き上げ方法
同一リージョン内の単一アカウントで作成可能な Lingjun CIDR ブロックの最大数	8	詳細については、「クォータの管理」をご参照ください。
単一の Lingjun CIDR ブロックで作成可能な Lingjun サブネットの最大数	16	詳細については、「クォータの管理」をご参照ください。
単一の Lingjun サブネット内の Lingjun ノードの最大数	1000	該当なし
単一の Lingjun CIDR ブロック内の Lingjun ノードの最大数	1000	該当なし
Lingjun CIDR ブロックと Lingjun サブネットに設定可能な CIDR ブロック	`100.64.0.0/10`、`224.0.0.0/4`、`127.0.0.0/8`、または `169.254.0.0/16` とそのサブネット以外のカスタム CIDR ブロックを Lingjun CIDR ブロックとして使用できます。	該当なし
同一リージョン内の単一アカウントで作成可能な Lingjun 接続インスタンスの最大数	16	該当なし
単一の Lingjun 接続インスタンスがパブリッククラウドから学習できる IPv4 ルートの最大数	50	該当なし
単一の Lingjun 接続インスタンスがパブリッククラウドから学習できる IPv6 ルートの最大数	25	該当なし
同一リージョン内の単一アカウントで作成可能な Lingjun Hub インスタンスの最大数	4	詳細については、「クォータの管理」をご参照ください。
単一の Lingjun CIDR ブロックに接続できる Lingjun Hub インスタンスの最大数	1	詳細については、「クォータの管理」をご参照ください。
単一の Lingjun 接続インスタンスに接続できる Lingjun Hub インスタンスの最大数	1	詳細については、「クォータの管理」をご参照ください。
単一の Lingjun Hub インスタンスに接続できる Lingjun 接続インスタンスの最大数	32	詳細については、「クォータの管理」をご参照ください。
単一の Lingjun Hub インスタンスがサポートできる、同一リージョン内のすべての Lingjun CIDR ブロック内の Lingjun ノードの最大数	2000	該当なし
単一の Lingjun Hub インスタンスに設定できるルーティングポリシーエントリの最大数	100	該当なし
単一の Lingjun NIC がサポートするセカンダリプライベート IP アドレスの最大数	3	詳細については、「クォータの管理」をご参照ください。

製品仕様とアクティベーション

アクティベーション：PAI-Lingjun AI Computing Service は現在パブリックプレビュー中です。Alibaba Cloud の営業担当者が、対象となるユーザーに購入リンクと管理者コンソールアカウントを提供します。アクティベーションの手順については、「Lingjun のアクティベーション」をご参照ください。
課金：PAI-Lingjun AI Computing Service は、分割払いおよびサブスクリプション課金モデルをサポートしています。課金の詳細については、「課金」をご参照ください。