PAI-Lingjun AI Computing Service (Lingjun) は、高性能AIトレーニングおよびコンピューティングのための異種コンピューティング機能を提供する大規模かつ高密度のコンピューティングサービスです。 Lingjunは主に、画像認識、自然言語処理 (NLP) 、検索ベースの広告推奨、一般的な大規模言語モデル (LLM) などの大規模な分散AI R&Dシナリオで使用されます。 Lingjunは、自動運転、金融リスク管理、医薬品研究開発、科学インテリジェンス、メタユニバース、インターネット、独立系ソフトウェアベンダー (ISV) などの業界に適しています。 AIトレーニングで消費されたリソースに対してのみ課金されます。 複雑なコンピュートノード、ストレージシステム、およびリモートダイレクトメモリアクセス (RDMA) ネットワークを作成、調整、または保守する必要なく、拡張性が高く、高性能で費用効果の高いインテリジェントコンピューティングインフラストラクチャを使用できます。
アーキテクチャ
Lingjunは、ソフトウェアとハードウェアを統合したコンピューティングクラスタサービスです。 ハードウェアは、サーバ、ネットワーク、およびストレージシステムを含む。 Lingjunは、ハードウェアをクラスターとして提供および管理します。 このソフトウェアには、コンピューティングリソース管理とO&M、AIアクセラレーションキット、クラウドネイティブのタスク管理、および包括的なAI開発プラットフォームが含まれます。 Lingjunは、PyTorchやTensorFlowなどの一般的なAIフレームワークをサポートします。
Lingjunの基盤となるコアハードウェアコンポーネントは、Panjiuサーバーと高性能RDMAネットワークで構成されています。
Alibaba Cloudによって開発されたPanjiuサーバーは、ハードウェアのパフォーマンスを確保するために、Lingjunの設定が大幅に最適化されています。
ネットワークは、共通のファットツリーネットワークトポロジおよびTCP/IPおよびRDMAなどの複数の通信プロトコルをサポートする。 Lingjunの25 Gbit/sネットワークと100 Gbit/sネットワークは独立して構築されています。 25 Gbit/sネットワークは、サーバーのインバンド管理に使用されます。 100 Gbit/sネットワークは、AIトレーニングサービスで効率的に通信するために複数のネットワークインターフェイスコントローラー (NIC) を使用します。 ネットワークの可用性を向上させるために、Lingjunはデュアルアップリンクネットワーキングをサポートしています。 このネットワークモードでは、各NICは2つのポートを使用して2つのvSwitchに接続されます。 vSwitchへの接続に失敗すると、他のvSwitchへの接続が自動的に使用され、ネットワークの可用性が確保されます。
ソフトウェアアーキテクチャは、リソース管理、コンピューティングアクセラレーションライブラリ、機械学習および深層学習フレームワーク、開発環境、ボトムアップのタスク管理など、複数のコンポーネントで構成されています。
リソース管理に関して、LingjunはDockerを使用してリソースを分割およびスケジュールし、Kubernetesなどのオーケストレーションツールと互換性があります。
システムのO&Mとモニタリングに関して、LingjunはAlibaba GroupのApsara Infrastructure Management Frameworkを使用して、基盤となるリソースとクラスターのステータスをリアルタイムでモニタリングします。
アクセラレーションライブラリは、Lingjunクラスターの通信用に深くカスタマイズされ、最適化されています。
コンピューティングシステムでは、タスクを送信し、コンソールでタスクログを表示でき、PyTorchやTensorFlowなどの主流のAIコンピューティングフレームワークをサポートします。
なぜLingjun?
Lingjunを使用すると、次の利点を持つAIクラスターを簡単に構築できます。
サービスとして計算します。 Lingjunクラスターは、高性能で弾力性の高い異種コンピューティングサービスを提供し、数万のGPUをサポートするようにスケールアップできます。 単一のクラスタのネットワーク帯域幅は4 Pbit/sに達し、レイテンシは2マイクロ秒と低くなります。
高いリソース使用率。 リソース使用率は3倍に増加し、並列計算効率は90% 以上に増加します。
統合コンピューティング能力プール。 Lingjunクラスターは、AIおよび高性能コンピューティングシナリオでのコンピューティングパワーの集中割り当てとスケジューリングをサポートします。
コンピューティング能力管理と監視。 Lingjunは、異種のコンピューティングパワーのために深くカスタマイズされたO&Mおよび管理プラットフォームを提供します。 プラットフォームは、異種のコンピューティングパワー、プールされたリソース、および効率の包括的な監視と管理を実装します。
メリット
AIイノベーションの加速。 エンドツーエンドのパフォーマンスが加速されます。 計算集約型プロジェクトの反復効率を2倍以上向上させることができます。
最大化投資収益率 (ROI) 。 異種コンピューティングパワーの効率的なプーリングおよびスケジューリングは、各コンピューティングリソースが完全に利用されることを保証する。 リソース使用率は3倍改善されます。
すべてのビジネススケールへの適応。 Lingjunは、大規模モデルや大規模プロジェクトのシミュレーションに必要な計算能力を提供できます。 これは、イノベーションが計算能力によって制限されるのを防ぎます。
視覚化と制御性。 Lingjunは、異種のコンピューティングパワーの割り当てを簡単に管理するのに役立ちます。 Lingjunを使用して、コンピューティングパワーの使用を継続的に監視および最適化できます。
シナリオ
Lingjunは主に、画像認識、NLP、検索ベースの広告推奨、一般的なLLMなどの大規模な分散AI R&Dシナリオで使用されます。Lingjunは、自動運転、金融リスク管理、医薬品研究開発、科学インテリジェンス、メタユニバース、インターネット、ISVなどの業界に適しています。
大規模な分散トレーニング
膨大な数のGPUを搭載したコンピューティングシステム
ピアツーピアネットワークアーキテクチャとプールされたリソースは、Machine Learning Platform for AI (PAI) で使用できます。 Lingjunは、PyTorch、TensorFlow、Caffe、Keras、XGBoost、Apache MXNetなどのさまざまなトレーニングフレームワークをサポートしており、さまざまなAIトレーニングおよび推論サービスの要件を満たすことができます。
AIインフラ
スムーズなスケールアップ。 Lingjunは、さまざまなスケールでGPU要件を満たすことができます。 Lingjunはスムーズなスケールアップをサポートし、コンピューティングパフォーマンスを線形に向上させます。
理性的なデータ加速。 Lingjunは、トレーニングに必要なデータをプリフェッチしてトレーニング効率を向上させることで、AIトレーニングシナリオにインテリジェントなデータアクセラレーションを提供します。
リソース使用率の向上。 Lingjunは、リソースの回転効率を改善するために、異種リソースのきめ細かい管理をサポートしています。
自律運転
豊富な展開とスケジューリングポリシー
Lingjunは、トレーニングタスクの効率的な実行を保証する複数のGPUスケジューリングポリシーをサポートします。 Lingjunは、Cloud Parallel File Storage (CPFS) とRDMAネットワークアーキテクチャを使用して、高性能なデータプロビジョニングとコンピューティングI/Oを保証します。 Lingjunは、Object storage Service (OSS) の階層ストレージ機能を使用してアーカイブデータを保存することもできます。これにより、ストレージコストが削減されます。
トレーニングとシミュレーションの両方をサポート
Lingjunは、ポーリングされたコンピューティングパワーをインテリジェントな方法で提供し、トレーニングとシミュレーションの両方のシナリオをサポートします。 これにより、コラボレーションモードでの反復効率が向上し、データ移行コストが削減されます。
科学的知性
イノベーションの上限を拡大
Lingjunは、超大規模な高速RDMAネットワークとデータセンター向けの通信フロー制御技術に基づいて、エンドツーエンド通信のレイテンシをマイクロ秒に短縮します。 超大型の線形弾性に基づいて、Lingjunクラスターをスケールアップして、並列コンピューティング用に数万個のGPUをサポートできます。
統合された生態系とイノベーションの拡大された境界
Lingjunは、高性能コンピューティングとAIタスクの集中スケジューリングをサポートし、科学研究とAIのための統一された共同ベースを提供し、テクノロジーとエコシステムの統合を促進します。
クラウド科学研究と包括的なコンピューティングパワー
Lingjunは、クラウドネイティブのコンテナ化されたAIと高性能アプリケーションエコシステム、深いリソース共有、包括的なインテリジェントコンピューティングパワーをサポートしています。
特徴
高速RDMAネットワークアーキテクチャ。 アリババグループは、2016年からリモートダイレクトメモリアクセス (RDMA) に関する特別な研究に投資してきました。
Alibaba Groupは、大規模なデータセンターに高速ネットワークを構築しました。 Alibaba Cloudは、RDMAネットワークの大規模なデプロイ手法に基づいて、クライアントとネットワークのコラボレーションに基づいて、輻輳制御のための高性能RDMAプロトコルとhigh performance Computing and Communications (HPCC) アルゴリズムを独自に開発しました。 Alibaba Cloudは、インテリジェントNICに基づくプロトコルを介したハードウェアオフロードも実装しています。 これにより、エンドツーエンドのネットワーク遅延が削減され、ネットワークI/Oスループットが向上し、ネットワーク障害やブラックホールなどの従来のネットワーク例外によって引き起こされる上位層アプリケーションのパフォーマンス損失が効果的に削減および防止されます。
高性能Alibaba Collective Communication Library (ACCL) 。 Lingjunは高性能ACCLをサポートしています。 ACCLは、vSwitchなどのハードウェアとともに使用して、数万のGPUを含むAIクラスターに輻輳のない高性能な通信機能を提供できます。 Alibaba Cloudは、ACCLを使用して、GPUとNICのインテリジェントマッチング、ノード内外の物理トポロジの自動識別、およびトポロジ認識スケジューリングアルゴリズムを実装しています。 これにより、ネットワークの輻輳が解消され、ネットワーク通信が加速され、分散トレーニングシステムの弾力性が向上します。 数万のGPUを含むLingjunクラスターでは、80% を超える線形クラスター機能を利用できます。 数百のGPUを含むLingjunクラスターの場合、95% を超えるコンピューティングパワーを効果的に使用でき、80% を超えるビジネスシナリオの要件を満たすことができます。
データのプリロードを高速化するための高性能KSpeed。 Lingjunは、高性能RDMAネットワークとACCLに基づいて、データI/Oをインテリジェントに最適化するためのデータプリロードアクセラレーション用の高性能KSpeedを開発しています。 コンピュート-ストレージ分離アーキテクチャは、AI、高性能コンピューティング、およびビッグデータシナリオで広く使用されています。 しかし、大量のトレーニングデータのロードは、効率のボトルネックを引き起こす。 Alibaba Cloudは、KSpeedを使用してデータI/Oパフォーマンスを桁違いに向上させます。
GPU高速化コンテナーの仮想化のためのeGPU。 Lingjunは、AIタスクの大規模化、GPUハードウェアリソースのコストの高さ、GPU使用率の低さなど、実際のビジネスシナリオで発生する可能性のある問題を解決するために、AIクラスターのGPU使用率を効果的に改善できるGPU仮想化テクノロジーであるeGPUをサポートしています。 eGPUには次の利点があります。
ビデオメモリとコンピューティングパワーに基づくGPU分離。
複数の仕様。
ダイナミックな作成と破壊。
ホットアップグレード。
より高い信頼性のためのユーザーモード技术。
Lingjunネットワークの制限
項目 | 制限事項 | クォータを増やす方法 |
同じリージョンの単一のAlibaba Cloudアカウントを使用して作成できるLingjun仮想プライベートデータセンター (VPD) の最大数 | 8 | 詳細については、「クォータの管理」をご参照ください。 |
単一のLingjun VPDで作成できるLingjunサブネットの最大数 | 16 | 詳細については、「クォータの管理」をご参照ください。 |
単一のLingjunサブネットにデプロイできるノードの最大数 | 1,000 | N/A |
単一のLingjun VPDにデプロイできるノードの最大数 | 1,000 | N/A |
Lingjun VPDおよびLingjunサブネットのCIDRブロックとして設定できるCIDRブロック |
| N/A |
同じリージョンで単一のAlibaba Cloudアカウントを使用して作成できるLingjun接続インスタンスの最大数 | 16 | N/A |
単一のLingjun接続インスタンスによってAlibaba Cloudパブリッククラウドから学習できるIPv4ルートの最大数 | 50 | N/A |
単一のLingjun接続インスタンスによってAlibaba Cloudパブリッククラウドから学習できるIPv6ルートの最大数 | 25 | N/A |
同じリージョンで単一のAlibaba Cloudアカウントを使用して作成できるLingjun Hubインスタンスの最大数 | 4 | 詳細については、「クォータの管理」をご参照ください。 |
単一のLingjun VPDに接続できるLingjun Hubインスタンスの最大数 | 1 | 詳細については、「クォータの管理」をご参照ください。 |
単一のLingjun接続インスタンスに接続できるLingjun Hubインスタンスの最大数 | 1 | 詳細については、「クォータの管理」をご参照ください。 |
単一のLingjun Hubインスタンスに接続できるLingjun接続インスタンスの最大数 | 32 | 詳細については、「クォータの管理」をご参照ください。 |
同じリージョンの単一のLingjun HubインスタンスでサポートされているすべてのLingjun VPDのノードの最大数 | 2,000 | N/A |
単一のLingjun Hubインスタンスに対して設定できるルーティングポリシーエントリの最大数 | 100 | N/A |
単一のLingjun NICでサポートされているセカンダリプライベートIPアドレスの最大数 | 3 | 詳細については、「クォータの管理」をご参照ください。 |
サービス仕様とアクティベーション
Lingjunはパブリックプレビュー中です。 Alibaba Cloudのビジネススタッフは、購入ページへのリンクと、サービスコンソールへのログインに使用される管理者アカウントを潜在的な顧客に積極的に提供します。 Lingjunを有効化する方法の詳細については、「Lingjun AI Computing Serviceの有効化とリソースの購入」をご参照ください。
Lingjunは、分割払いとサブスクリプションの課金方法をサポートしています。 詳細については、「Lingjunリソースの課金 (シングルテナント版) 」をご参照ください。