Elastic GPU Serviceは、広範なサービス範囲、優れたコンピューティングパワーとネットワークパフォーマンス、および柔軟な購入方法を提供します。 DeepGPUは、Elastic GPU ServiceのGPUコンピューティング機能を強化するためにAlibaba Cloudが提供する無料のツールキットです。 このトピックでは、Elastic GPU ServiceとDeepGPUの利点について説明します。
Elastic GPUサービス
広範なサービス範囲
Elastic GPU Serviceは、17のリージョンで大規模なデプロイをサポート
世界中。 Elastic GPU Serviceは、自動プロビジョニングや自動スケーリングなどの柔軟な配信方法も提供し、突然のビジネス需要に対応します。
優れたコンピューティング能力
Elastic GPU Serviceは、優れたコンピューティングパワーを備えたGPUを提供します。 高パフォーマンスCPUプラットフォームと一緒にElastic GPU Serviceを使用すると、GPU高速化インスタンスは、1秒あたり最大1,000兆個の浮動小数点演算 (TFLOPS) の混合精度コンピューティングパフォーマンスを提供できます。
優れたネットワーク性能
GPU高速化インスタンスは、最大4.5万パケット /秒 (Mpps) と32 Gbit/sの内部帯域幅をサポートする仮想プライベートクラウド (VPC) を使用します。 GPU高速化インスタンスをSuper Computing Cluster (SCC) と一緒に使用して、ノード間で最大50 Gbit/sの帯域幅を持つリモートダイレクトメモリアクセス (RDMA) ネットワークを提供できます。 これは、データがノード間で送信されるときの低レイテンシと高帯域幅の要件を満たします。
柔軟な購入方法
Elastic GPU Serviceは、サブスクリプションや従量課金、プリエンプティブルインスタンス、リザーブドインスタンス、SCU (storage capacity Unit) など、さまざまな課金方法をサポートしています。 リソースの非効率的な使用を防ぐために、ビジネス要件に基づいて課金方法を選択できます。
DeepGPU
DeepGPUは、Deepytorch、AIACC − ACSpeed (ACSpeed) 、AIACC − AGSpeed (AGSpeed) 、FastGPU、およびcGPUのコンポーネントを含む。 次のセクションでは、コンポーネントの主要な利点について説明します。
Deepytorch
Deepytorchは、Alibaba Cloudによって開発されたAIアクセラレータであり、生成的AIおよびLLM (Large Language Model) シナリオでのトレーニングと推論を高速化します。 Deepytorchは、トレーニングと推論のタスクに高いパフォーマンスと使いやすさを提供します。 AIアクセラレータには、Deepytorch TrainingおよびDeepytorch Inferenceソフトウェアパッケージが含まれています。
大幅なパフォーマンス向上
Deepytorch Trainingは、分散通信と計算グラフのコンパイルを統合して、エンドツーエンドのトレーニングパフォーマンスを大幅に向上させます。 これにより、モデルトレーニングの反復が加速され、コストが削減されます。
Deepytorch Inferenceは、コンパイルを高速化して、モデル推論タスクの待ち時間を短縮し、モデルの適時性と応答速度を向上させます。 これにより、モデル推論のパフォーマンスが大幅に向上します。
使いやすさ
Deepytorch Trainingは、オープンソースエコシステム、主流のPyTorchバージョン、および主流の分散トレーニングフレームワークと完全に互換性があります。 たとえば、Deepytorchは、DeepSpeed、PyTorch Fully Sharded Data Parallel (FSDP) 、およびMegatron-LMと互換性があります。
Deepytorch Inferenceにより、精度と入力サイズを指定する必要がなくなり、コードの手動操作を減らすためにインスタントコンパイルをサポートします。 これにより、ユーザビリティが向上し、コードの複雑さとメンテナンスコストが削減されます。
DeepNCCL
DeepNCCLは、マルチGPU通信をサポートするSHENLONGアーキテクチャのAlibaba Cloud異種製品用に開発されたAI通信アクセラレーションライブラリです。 AI分散トレーニングタスクおよびマルチGPU推論タスクにDeepNCCLを使用して、通信を高速化できます。
最適化された通信効率
DeepNCCLは、単一のマシン上およびマシン間での通信を最適化し、クラウドネイティブNCCLよりも20% 以上高いパフォーマンスを実現します。
知覚不可能な加速
DeepNCCLはマルチGPU通信をサポートしており、分散トレーニングタスクとマルチGPU推論タスクを業務中断なしで高速化するために使用できます。
DeepGPU-LLM
DeepGPU-LLMは、Elastic GPU Serviceに基づいてAlibaba Cloudによって開発されたLLM推論エンジンで、LLMタスクの処理において高性能な推論機能を提供します。
高いパフォーマンスと低レイテンシ
DeepGPU-LLMは、GPU間のテンソル並列処理と通信最適化をサポートし、マルチGPU並列コンピューティングの効率と速度を向上させます。
サポート主流モデル
DeepGPU-LLMは、さまざまなシナリオでモデル推論要件を満たすために、Tongyi Qianwen、Llama、ChatGLM、Baichuanなどの主流モデルをサポートしています。
FastGPU
FastGPUは、IaaSレイヤーでコンピューティング、ストレージ、またはネットワークリソースをデプロイすることなく、AIコンピューティングタスクを構築できる高速クラスターデプロイツールです。 クラスターをデプロイするための簡単な設定のみを構成する必要があるため、時間の節約とコストの削減に役立ちます。
高い効率
クラスターをすばやくデプロイできます。 IaaSレイヤーでは、コンピューティング、ストレージ、ネットワークリソースなどのリソースを個別にデプロイする必要はありません。 クラスターのデプロイに必要な時間は5分に短縮されます。
インターフェイスとコマンドラインを使用して、タスクとリソースを便利かつ効率的に管理できます。
費用対効果
データセットが準備を完了し、トレーニングまたは推論タスクをトリガーした後、GPUアクセラレーションインスタンスを購入できます。 トレーニングまたは推論タスクが終了すると、GPUアクセラレーションインスタンスは自動的にリリースされます。 FastGPUは、リソースライフサイクルをタスクと同期させてコストを削減できます。
プリエンプティブルインスタンスを作成できます。
使いやすさ
すべてのリソースはIaaSレイヤーでデプロイされます。 リソースはアクセス可能であり、デバッグすることができる。
FastGPUは、視覚化とログ管理の要件を満たし、タスクを追跡できるようにします。
cGPU
cGPUを使用すると、リソースを柔軟に割り当て、ビジネスデータを分離できます。 cGPUを使用してコストを削減し、セキュリティを向上できます。
費用対効果
GPUの継続的な開発と半導体製造業界の進歩により、単一のGPUはより高い計算能力を提供しますが、価格は高くなります。 ほとんどのビジネスシナリオでは、AIアプリケーションはGPU全体を必要としません。 cGPUでは、複数のコンテナーが1つのGPUを共有できます。 これにより、セキュリティのためにビジネスデータが分離され、GPU使用率が向上し、コストが削減されます。
柔軟なリソース割り当て
cGPUを使用すると、特定の比率に基づいて物理GPUリソースを柔軟に割り当てることができます。
GPUメモリまたは計算能力によってリソースを柔軟に割り当てることができます。
cGPUでは、計算能力を割り当てるポリシーを柔軟に設定することもできます。 次の3つのスケジューリングポリシーをリアルタイムで切り替えて、ピーク時およびオフピーク時のAIワークロードの要件を満たすことができます。