ESSD クラウドディスクは、三重化ストレージとエンドツーエンドのデータ検証により、ローカル冗長では 99.9999999% (ナインナイン)、ゾーン冗長では 99.9999999999% (トゥエルブナイン) のデータ信頼性を実現します。
技術的な利点
-
データの耐久性:各データは、異なる物理ノードおよびラック上に 3 つのレプリカとして複製されます。1 つまたは 2 つのレプリカが使用できなくなった場合でも、残りのレプリカが読み取りと書き込みを継続して処理します。
-
データ整合性:システムは、書き込みおよび保存プロセスの各段階でチェックサムを生成し、検証します。不一致が検出されると、即座にエラー訂正が実行され、転送中および保存中のデータ破損が防止されます。この検証はハードウェアアクセラレーションにより実行され、読み取り/書き込みパフォーマンスへの影響はほとんどありません。
-
自動障害復旧:システムがストレージノードの障害またはレプリカ不足を検出すると、正常なレプリカからデータを復元し、完全な 3 レプリカ状態を再確立します。復旧プロセスはアプリケーションに対して透過的です。
保護シナリオ
-
ハードウェア障害によるデータの使用不可
-
課題:ディスクの破損、サーバーのダウンタイム、またはラックの電源障害により、影響を受けた物理デバイス上のデータにアクセスできなくなる可能性があります。
-
技術的な保護:三重化ストレージメカニズムは、データを異なる物理ノードに分散します。障害が発生した場合、システムは正常なレプリカにフェイルオーバーし、バックグラウンドで新しいレプリカを再構築するため、ビジネスへの影響はありません。
-
-
サイレントデータ破損
-
課題:メモリビットの反転、ネットワーク転送エラー、またはディスクファームウェアの劣化により、従来の方法では検出が困難な、検知されないデータ破損が発生する可能性があります。
-
技術的な保護:エンドツーエンドのデータ検証は、書き込みプロセスの各ステップでチェックサムを生成します。読み取り時に、システムはこれらのチェックサムを検証し、不一致が発生した場合は即座にエラー訂正を実行することで、読み取られたデータが書き込まれたデータと一致することを保証します。
-
これらの技術は、インフラストラクチャレイヤーでのハードウェア障害とデータ破損から保護します。誤削除やウイルス攻撃などのアプリケーションレベルのリスクには、スナップショットが必要です。
三重化ストレージメカニズム
三重化ストレージは、ハードウェア障害によるデータの使用不可に対処します。システムは、クラウドディスクに書き込まれた各データを 3 つのコピーに複製し、異なる物理ノード上に保存します。
データ書き込みプロセス

システムは、マルチレプリカ同期書き込みメカニズムを使用します。書き込みは、すべてのレプリカにデータが書き込まれた場合にのみ成功し、それ以外の場合は失敗します。これにより、強い整合性が保証されます。つまり、後続のすべての読み取りは、最後に書き込まれたデータを返します。
レプリカ配置戦略
ラック電源障害による複数のレプリカの喪失などの相関障害を防ぐため、三重化ストレージメカニズムは次の配置戦略に従います。
-
ラックの分離:3 つのレプリカは、異なるラック上のストレージノードに分散されます。単一マシンまたは単一ラックの障害は、データの可用性に影響しません。
-
障害ドメインの分離:ローカル冗長 ESSD クラウドディスクの場合、レプリカは同じゾーン内の異なるラックに分散されます。ゾーン冗長 ESSD クラウドディスクの場合、レプリカは異なるゾーンにまたがり、ディザスタリカバリがラックレベルからゾーンレベルにアップグレードされます。
-
負荷分散:分離要件を満たしながら、システムはストレージ容量、I/O 負荷、およびネットワークトポロジも考慮し、リソース使用率とパフォーマンスのバランスを取ります。
障害復旧プロセス

システムがレプリカ不足を検出すると、分離ポリシーを満たす正常なストレージノードを選択し、既存のレプリカからデータをコピーして 3 レプリカ状態を復元します。このプロセスはアプリケーションに対して透過的であり、手動による介入は必要ありません。
エンドツーエンドのデータ検証
エンドツーエンドのデータ検証は、転送中および保存中のサイレントデータ破損に対処します。
検証プロセス
書き込みおよび保存プロセスの各段階で、システムは巡回冗長検査 (CRC) を使用してデータ整合性を検証します。
-
I/O リクエストの開始後:データはブロックストレージパスに入り、初期チェックサムが生成されます。
-
メモリコピー後:データがコンピュートノードのメモリにコピーされた後、システムはチェックサムを比較してエラーを検出します。
-
ネットワーク転送後:データがストレージノードのネットワーク層に到達すると、システムはチェックサムを比較して転送中のビットエラーを検出します。
-
ストレージノードによる受信時:データがストレージノードのメモリに書き込まれた後、システムはチェックサムを比較します。
-
データがディスクに永続化される際:データがディスクに書き込まれた後、システムはチェックサムを比較します。
いずれかの段階でチェックサムの不一致が検出された場合、即座にエラー処理が実行されます。この検証はハードウェアアクセラレーションにより実行され、読み取り/書き込みパフォーマンスへの影響はほとんどありません。
エラー処理
エラー処理は、エラーが発生した場所によって異なります。
-
ネットワーク転送層:システムは、検証が成功するまでデータを再送信します。
-
ストレージメディア:システムは不良ブロックをマークし、別のレプリカから正しいデータを読み取って復旧します。
-
メモリ:エラー訂正コード (ECC) メカニズムがエラーを訂正し、システムは I/O 操作を再試行します。
よくある質問
-
三重化ストレージメカニズムは、3 倍のストレージ容量に対して料金を支払う必要があることを意味しますか?
いいえ。三重化ストレージは、組み込みのデータ信頼性機能です。Alibaba Cloud が 3 倍のストレージ冗長性のコストを負担します。お客様は、購入したクラウドディスク容量に対してのみ料金をお支払いいただきます。たとえば、40 GiB のクラウドディスクは、40 GiB の使用可能かつ課金対象の容量を提供します。
-
データをさらに保護するにはどうすればよいですか?
-
定期的なバックアップのために、自動スナップショットポリシーを作成してください。問題が発生した場合は、スナップショットを使用してクラウドディスクをロールバックしてください。
-
リージョン間でスナップショットをコピーしてください。障害が発生した場合は、スナップショットからデータディスクを作成し、スタンバイインスタンスにアタッチしてください。
-
-
三重化ストレージメカニズムは、すべてのタイプのデータ損失を防ぐことができますか?
三重化ストレージは、インフラストラクチャレイヤーでのハードウェア障害から保護します。誤削除やウイルス攻撃などのアプリケーションレベルのリスクには、スナップショットが必要です。
-
三重化ストレージメカニズムは、どのようにしてデータの整合性を保証しますか?
システムは、マルチレプリカ同期書き込みメカニズムを使用します。書き込みは、すべてのレプリカにデータが書き込まれた場合にのみ成功し、それ以外の場合は失敗します。これにより、強い整合性が保証されます。つまり、後続のすべての読み取りは、最後に書き込まれたデータを返します。