概要
機械学習や深層学習モデルの複雑性の増大に伴い、計算力の高いサーバリソースが欠かせなくなっています。多くの企業や研究者はGPUサーバを活用し、学習時間の短縮や推論の性能向上を目指していますが、非効率なGPUサーバ活用によるコスト増大に悩まされています。 Alibaba CloudはAIモデルの学習/推論の高速化や、GPUサーバの効率的な活用、統合開発環境を実現するソリューションを提供し、費用を抑えながらAIビジネスの成長とイノベーションをお手伝い致します。
ホワイトペーパーのダウンロードAIモデルの開発・運用における課題
効率的なAIモデルの開発、運用を妨げる様々な課題
AIモデル学習の時間増大と推論性能の低下
学習/推論モデルの複雑性の増大に伴い、学習時間は増大し、推論性能は低下しています。
非効率なGPUクラスタの活用
GPU利用率が低いため、必要以上のGPUサーバを活用せざるを得えません。その結果、無駄なGPUリソースが発生し、インフラコストが増加しています。
非効率な開発・運用管理ツール
AIモデルの開発、デプロイ、実行までのプロセスを統合的に管理できず、開発運用の工数が増大しています。
Alibaba Cloudが提供するソリューション
AI Acceleration (AIACC)
AIACCはTesorFlowやPytorchなど主要なフレームワークに対応した加速エンジンです。Alibaba CloudのGPUインスタンスにインストールし、数行のコード修正で学習と推論を数十%向上させます。GPUノード間の通信時間を短縮させるため、複数のGPUインスタンスを活用する際に特に効果を発揮します。 スタンフォード大学が提供するAIモデルのベンチマークDAWNBenchにおいても学習と推論の性能、コスト面で共に高く評価されています。 https://dawn.cs.stanford.edu/benchmark/
cGPU
Kubernetesの複数コンテナ間で一つの物理GPUを各コンテナの独自リソースとして共有することができます。コンテナ同士は隔離されるため障害時は他コンテナに影響を与えません。GPUサーバを共有し、GPU利用率を向上させることでサーバ台数を削減し、インフラコストを抑えます。 また、CUDAライブラリはそのまま利用でき、AIアプリの再コンパイルも不要なため、既存環境へ迅速に導入頂けます。
Cloud Native AI Suite
AIモデルの開発、デプロイ、実行プロセスの統合的な管理を実現します。Yamlファイルを作成せずにAIタスクのKubernetesへのデプロイと実行が可能です。
より詳細な説明をご希望の方はこちらからご連絡ください
お問い合わせ関連リソース
スペシャルオファー
Elastic GPU Service
GPU技術を駆使した強力な並列計算能力

15% OFF
• ディープラーニング
• 映像処理
• 科学的コンピューティング
クラウドエンタープライズネットワーク
ネットワークへの要求が高い企業ユーザーに最適なハイブリッド分散型グローバルネットワーク

無料体験
• 1ヶ月間無料 5M以内
• 高品質なコミュニケーション
•秒単位でのルートコンバージェンス
コンテナレジストリ
コンテナイメージの安全な管理と効率的な配布を実現するエンタープライズクラスのプラットフォーム

20% OFF
• ACR EE Advanced Edition
• 企業レベルのセキュリティ
• グローバル展開の加速化
AI向け機械学習プラットフォーム
データマイニングと分析のためのエンドツーエンドのプラットフォーム
•可視化されたインターフェイス
•100種類以上のAlgorithm Components
•パワフルなコンピューティング能力