PAI のインフラストラクチャセキュリティには、ゾーン間隔離、フォールトトレランス、ヘルスチェック、およびモニタリングが含まれます。
ゾーン間障害分離
ゾーンとは、同一リージョン内において独立した電源およびネットワークを備えた物理的なエリアです。
同一リージョン内のゾーンは、低遅延の内部ネットワークで接続されています。PAI ではゾーン間の障害分離が実装されており、あるゾーンで発生した障害が他のゾーンの運用に影響を与えることはありません。また、各リージョンは相互に独立しており、異なるリージョン間のゾーンも完全に隔離されています。
弾力的な自動フォールトトレランス
PAI は AIMaster を基盤としたフォールトトレランス監視機能を提供します。AIMaster はタスクレベルのコンポーネントであり、タスクに対して有効化すると、そのタスクの他のタスクインスタンスと並行して AIMaster インスタンスが起動・実行され、タスクの監視、障害の検出、およびリソースのコントロールを行います。詳細については、「AIMaster:弾力的な自動フォールトトレランスエンジン」をご参照ください。
計算能力のヘルスチェック
DLC は、AI トレーニング向けに健全性チェック(SanityCheck)を提供し、分散型トレーニングタスクにおける計算リソースの健全性およびパフォーマンスを検証します。この機能は、DLC トレーニングタスクの作成時に有効化してください。健全性チェックでは、すべてのトレーニングリソースを検査し、障害のあるノードを自動的に隔離するとともに、バックグラウンドで自動化された O&M プロセスをトリガーします。これにより、初期段階での問題発生を低減し、トレーニングの成功率を向上させます。処理完了後、システムは GPU の計算能力および通信パフォーマンスに関するレポートを生成します。このレポートにより、パフォーマンス低下の原因となる要素を特定・特定位置付けでき、問題診断の効率が向上します。詳細な手順については、「SanityCheck:計算能力のヘルスチェック」をご参照ください。
インフラストラクチャモニタリング
Cloud Monitor と統合することで、セキュリティ防御体制の構築および強化が可能です。関連トピック:
-
モデル推論モニタリング(EAS):「EAS Cloud Monitor イベントの表示」。