PAI-Lingjun AI Computing Service (Lingjun) は、大規模なディープラーニングと統合インテリジェントコンピューティング向けに設計されたPaaS製品です。 最適化されたソフトウェアとハードウェアの統合に基づいて構築され、高性能の異種計算能力を提供します。 Lingjunは、大規模な言語モデルトレーニング、自動運転、基礎科学研究、財務などの高性能コンピューティングのニーズを満たす、高性能、高効率、高利用などのコア利点を備えたフルプロセスAIエンジニアリング機能を提供します。
大規模な分散トレーニング
サーバーレスアーキテクチャでAIの研究開発シナリオをサポートします。 Lingjunは、GPT-3 (175億パラメータ) 、M6 (1兆パラメータ) 、PLUG、STARなどの大規模モデルのトレーニングタスクを処理できます。 グラフィックおよび画像処理 (AIGC画像生成など) 、自然言語処理 (AIGCテキスト生成など) 、オーディオおよびビデオなどのアプリケーション分野に適した高度に最適化されたインテリジェントコンピューティングサービスを提供し、効率的で予測可能なトレーニングサービスを保証してモデルの反復効率を加速します。
1万GPUレベルの線形拡張: さまざまなスケールのAIトレーニングコンピューティングパワーのニーズをサポートし、2マイクロ秒という低いポイントツーポイント通信レイテンシを実現します。 Lingjunは、コンピューティングパワーリソースのスムーズなスケールアウトとパフォーマンスの線形拡張を保証します。
超高スループットとIOPS: AIトレーニングシナリオでは、トレーニング中のデータの読み込みと書き込みの高帯域幅要件を満たすために、データが永続ストレージにプリロードされ、トレーニング効率が向上します。
高いリソース使用率: GPUリソースのきめ細かいスライスとスケジューリングにより、Lingjunは共同開発をサポートします。 このテクノロジーは、ダブル11ショッピングフェスティバル中の大規模なアプリケーションを通じて検証され、リソース使用率は最大3倍に改善されました。
自律運転
フルシナリオアプリケーションをサポートするワンストップのトレーニングおよびシミュレーションプラットフォームを提供します。 Lingjunは、さまざまなGPUリソーススケジューリング戦略、RDMAネットワーク、およびCPFSストレージシステムを通じて、効率的なデータ処理とコンピューティングパワーを保証します。 一方、このプラットフォームはデータのセキュリティとコンプライアンスを重視し、イテレーション効率を高め、データ移行コストを削減するための豊富なデプロイとスケジューリング戦略を提供します。
効率的なトレーニングとシミュレーションのサポート
トレーニングとシミュレーションをサポートする統合プラットフォームを提供し、開発プロセスを簡素化します。 さまざまなGPUリソーススケジューリング戦略を通じて、Lingjunはトレーニングタスクの効率的な実行を保証します。
CPFSとRDMAネットワークアーキテクチャを組み合わせることで、トレーニングデータとコンピューティングIOパフォーマンスを高帯域幅で提供できます。 一方、OSSを介した階層ストレージは、アーカイブデータのストレージコストを削減します。
包括的なセキュリティとコンプライアンス保証
このプラットフォームは、さまざまな自動運転アプリケーションシナリオをサポートし、セキュリティとコンプライアンスの要件を満たします。 Lingjunには、データセキュリティセンター、クラウドファイアウォール、Bastionhost、暗号化サービス、SSL暗号化、RAM、およびデータベース監査が含まれており、データとアプリケーションのセキュリティを確保します。
高いリソース使用率と柔軟な拡張
Lingjunは、GPUリソースのきめ細かいスライシングとスケジューリングにより、共同開発をサポートし、リソースの使用率が最大3倍に向上します。 クラウドリソースの柔軟な拡張はオプションで、オンデマンドで接続できます。柔軟なリソース管理を確保し、イテレーション効率を高め、データ移行コストを削減します。
科学研究
Lingjunは、超大規模な統合コンピューティングパワーを通じて、ディープラーニングと高性能コンピューティングタスクの統合された展開とスケジューリングを実現します。 基礎科学研究、医学開発、工学シミュレーションなどの分野に標準化されたコンピューティングサービスを提供します。 これは、パラダイムイノベーションと効率向上を促進するだけでなく、AIとハイパフォーマンスコンピューティング (HPC) 開発エコシステムの深い統合を促進します。
科学研究における新しいパラダイムの推進
クラウドネイティブおよびコンテナ化されたAIおよびHPCアプリケーションエコシステムをサポートすることで、基礎科学研究、新薬開発、新材料研究などの分野に統合コンピューティングサービスを提供します。 地域間およびチーム間の共同作業をサポートし、リソース利用を改善し、テクノロジーエコシステムの統合を促進し、共同効果を強化します。
大規模な科学研究プラットフォームの構築
RDMAテクノロジーとAlibaba Cloudの高性能通信ライブラリを利用して、低レイテンシ、高帯域幅のネットワーク環境を構築します。 AIおよびHPCアプリケーションの通信を最適化し、2マイクロ秒という低いポイントツーポイント通信レイテンシを実現し、数万のノードで並列コンピューティングをサポートし、大規模な科学コンピューティングに効率的なインテリジェントコンピューティングサービスを提供します。