高可用性とフォールトトレランスの機能-Platform for AI-Alibaba Cloud

PAI のインフラストラクチャセキュリティには、ゾーン間隔離、フォールトトレランス、ヘルスチェック、およびモニタリングが含まれます。

ゾーン間障害分離

ゾーンとは、同一リージョン内において独立した電源およびネットワークを備えた物理的なエリアです。

同一リージョン内のゾーンは、低遅延の内部ネットワークで接続されています。PAI ではゾーン間の障害分離が実装されており、あるゾーンで発生した障害が他のゾーンの運用に影響を与えることはありません。また、各リージョンは相互に独立しており、異なるリージョン間のゾーンも完全に隔離されています。

弾力的な自動フォールトトレランス

PAI は AIMaster を基盤としたフォールトトレランス監視機能を提供します。AIMaster はタスクレベルのコンポーネントであり、タスクに対して有効化すると、そのタスクの他のタスクインスタンスと並行して AIMaster インスタンスが起動・実行され、タスクの監視、障害の検出、およびリソースのコントロールを行います。詳細については、「AIMaster：弾力的な自動フォールトトレランスエンジン」をご参照ください。

計算能力のヘルスチェック

DLC は、AI トレーニング向けに健全性チェック（SanityCheck）を提供し、分散型トレーニングタスクにおける計算リソースの健全性およびパフォーマンスを検証します。この機能は、DLC トレーニングタスクの作成時に有効化してください。健全性チェックでは、すべてのトレーニングリソースを検査し、障害のあるノードを自動的に隔離するとともに、バックグラウンドで自動化された O&M プロセスをトリガーします。これにより、初期段階での問題発生を低減し、トレーニングの成功率を向上させます。処理完了後、システムは GPU の計算能力および通信パフォーマンスに関するレポートを生成します。このレポートにより、パフォーマンス低下の原因となる要素を特定・特定位置付けでき、問題診断の効率が向上します。詳細な手順については、「SanityCheck：計算能力のヘルスチェック」をご参照ください。

インフラストラクチャモニタリング

Cloud Monitor と統合することで、セキュリティ防御体制の構築および強化が可能です。関連トピック：

モデル推論モニタリング（EAS）：「EAS Cloud Monitor イベントの表示」。