全部產品
Search
文件中心

Key Management Service:密碼機監控與警示

更新時間:Dec 18, 2025

當密碼機(HSM)的運行狀態或效能出現波動時,如果無法及時感知,可能會影響業務穩定甚至導致服務中斷。通過Data Encryption Service提供的監控與警示功能,可以即時掌握執行個體與叢集的健康度、效能負載等關鍵計量,並設定警示規則,從而在異常發生時及時獲得通知,保障業務的連續性和穩定性。

功能概述

HSM監控提供執行個體與叢集兩個維度監控服務,分別支援基礎監控(覆蓋CPU使用率、記憶體使用量率、TCP串連數、HSM健康度以及叢集同步狀態)和TPS監控等核心指標。對HSM資源使用與運行狀態進行全面洞察,為主動風險預警和容量規劃提供資料支援。其核心價值在於:

  • 風險預警:通過分析指標趨勢,可及時發現潛在的運行風險。整合的警示機制能夠迅速將故障通知相關人員,以保障業務的連續性和穩定性。

  • 故障定位:在發生異常時,詳盡的監控資料有助於快速定位問題根源,縮短故障排查時間。

查看執行個體或叢集監控指標

警告

最多支援您查看30天內的監控項指標資料。

操作步驟

  1. 訪問Data Encryption Service控制台的虛擬密碼機執行個體頁面,在頂部功能表列,選擇目標地區。

  2. 單擊執行個體ID,在詳情頁面查看執行個體監控資訊叢集監控資訊

  3. 選取查詢時間範圍,密碼機監控資料的統計周期(粒度)會隨選擇的查詢時間範圍而變化。

    查詢時間範圍

    資料統計周期

    1小時、3小時、6小時、12小時

    5分鐘

    1天

    10分鐘

    3天

    30分鐘

    7天

    60分鐘

    7天以上至30天

    120分鐘

  4. (可選)開啟右上方自動重新整理開關,HSM會每隔1分鐘自動擷取最新的監控資料。

監控資訊詳解

執行個體監控資訊

  • 基礎監控

    說明
    • 基礎監控為所有指標提供全面的警示能力,既支援開箱即用的一鍵警示規則,也支援設定自訂警示規則

    • 一鍵警示策略的統計周期預設為五分鐘。

    監控項

    指標含義

    一鍵警示規則(預設警示策略)

    CPU使用率

    密碼機執行個體的CPU佔用百分比。

    • 警示層級: 警告 (WARN)

    • 觸發規則: CPU使用率連續5個周期 > 85%。

    記憶體使用量率

    密碼機執行個體的記憶體佔用百分比。

    • 警示層級: 警告 (WARN)

    • 觸發規則: 記憶體使用量率連續5個周期 > 85%。

    TCP串連數

    密碼機執行個體已建立的TCP串連總數。

    • 警示層級: 通知 (Info)

    • 觸發規則: TCP串連數連續5個周期 > 200。

    HSM健康度

    反映密碼機執行個體的運行狀態。

    • 警示層級: 警告 (WARN)

    • 觸發規則: 健康度連續5個周期為 0。

  • TPS監控

    重要
    • 僅適用於中國內地地區的密碼機。

    • 不支援一鍵警示,需登入CloudMonitor控制台設定自訂警示規則

    監控項

    指標含義

    對稱演算法

    執行個體執行各類對稱演算法操作的效能資料,包含:AES 運算、SM1 運算、SM4 運算。

    SM2

    執行個體執行 SM2 演算法各類操作的效能資料,包含:密鑰產生、 加密 / 解密、簽名 / 驗簽。

    RSA

    執行個體執行 RSA 演算法各類操作的效能資料,包含:金鑰組產生、公開金鑰運算、私密金鑰運算。

    ECC

    執行個體執行 ECC 演算法各類操作的效能資料,包含:金鑰組產生、簽名 / 驗簽。

    雜湊演算法

    執行個體執行雜湊計算的效能資料。

叢集監控資訊

  • 基礎監控

    說明
    • 基礎監控為所有指標提供全面的警示能力,既支援開箱即用的一鍵警示規則,也支援在CloudMonitor設定自訂警示規則

    • 一鍵警示策略的統計周期預設為五分鐘。

    監控項

    指標含義

    一鍵警示規則(預設警示策略)

    同步状态

    叢集是否同步。取值:

    • 1:叢集正常,主子密碼機摘要一致。

    • 0:叢集不同步,包括主子密碼機摘要不一致、配置不一致、叢集同步失敗等異常情況。

    • 警示層級: 通知(Info)

    • 觸發規則: 連續5個周期取值為0。

  • TPS監控

    重要
    • 僅在叢集內所有執行個體支援TPS監控(即均為中國內地地區的密碼機)時可用。

    • 不支援一鍵警示,需通過雲監設定自訂警示規則

    監控項

    指標含義

    對稱演算法

    叢集內所有執行個體執行各類對稱演算法操作的TPS總和,包含:AES 運算、SM1 運算、SM4 運算。

    SM2

    叢集內所有執行個體執行 SM2 演算法各類操作的TPS總和,包含:密鑰產生、 加密 / 解密、簽名 / 驗簽。

    RSA

    叢集內所有執行個體執行 RSA 演算法各類操作的TPS總和,包含:金鑰組產生、公開金鑰運算、私密金鑰運算。

    ECC

    叢集內所有執行個體執行 ECC 演算法各類操作的TPS總和,包含:金鑰組產生、簽名 / 驗簽

    雜湊演算法

    叢集內所有執行個體執行雜湊(摘要)計算的TPS總和。

設定監控指標警示

方式一:在HSM開啟一鍵警示

HSM內建了對基礎監控預設通用警示規則,具體警示規則內容,請參見監控資訊詳解

重要
  • 開啟一鍵警示後,警示規則會作用於當前阿里雲帳號下的所有HSM執行個體。

  • 如果之前開啟過一鍵警示,並修改了警示規則,再次開啟一鍵警示時,警示規則會恢複到系統預設的警示規則。

  1. 訪問Data Encryption Service控制台的虛擬密碼機執行個體頁面,在頂部功能表列,選擇目標地區。

  2. 單擊執行個體ID,在執行個體監控資訊叢集監控資訊頁簽的右上方,單擊一鍵警示

  3. 配置警示規則

    1. 開啟一鍵警示開關。

    2. 修改規則內容(可選):如果只針對部分監控指標設定警示,或者需要設定更精細化的警示規則,可以禁用、修改警示規則。

      說明

      一鍵警示規則的警示接收人,預設為系統建立的雲帳號警示連絡人,如需修改其成員資訊,請到CloudMonitor控制台修改。具體操作,請參見修改警示連絡人或警示聯絡組

  4. 開啟發送無數據警示(可選)

    1. 單擊設定警示規則,跳轉到CloudMonitor控制台,並定位至目標預設警示規則。

    2. 單擊操作欄修改按鈕。

    3. 修改無數據處理方法發送無數據警示

方式二:在CloudMonitor設定警示

  1. 執行個體監控資訊叢集監控資訊頁簽的右上方,單擊設定警示規則,跳轉到CloudMonitor控制台。

  2. 警示規則頁面,參考建立警示規則完成配置。部分配置說明如下:

    • 产品加密服务-实例维度加密服务-集群维度

    • 無數據處理方法:建議選擇發送無數據警示,避免監控指標資料為空白時會影響閾值判斷,從而影響警示的及時性和正確性。

處理警示通知

常見的警示處理方法如下:

  • HSM健康度為0(密碼機運行異常)

    • 常見原因如下:

      • 硬體故障: 內部物理組件(如處理器、記憶體、加密卡等)損壞或失靈。

        說明

        該情境下系統將自動隔離故障執行個體,以保障整體服務的連續性和安全。

      • 軟體/韌體缺陷: 裝置韌體、驅動程式或管理軟體存在錯誤(Bug),導致功能異常或無響應。

      • 網路連接問題: 與應用伺服器或網路裝置間的串連中斷、延遲過高或不穩定。

      • 供電問題: 電源中斷、電壓不穩或供電裝置故障,導致裝置無法啟動或意外關閉。

      • 運行環境異常: 裝置運行溫度過高、濕度不當或通風散熱不暢,影響其效能與穩定性。

    • 解決方案:

      1. 初步診斷:立即在Data Encryption Service控制台查看該執行個體的狀態是否為“運行中”。同時,檢查阿里雲狀態頁或站內信,確認當前地區是否存在服務故障或計劃內維護。

      2. 網路排查:檢查應用伺服器與密碼機執行個體所屬VPC的安全性群組和網路ACL規則,確保服務連接埠的網路訪問是通暢的。

  • CPU/記憶體使用量率過高

    • 關聯分析:在監控頁面,對比出問題時間段的CPU使用率和TPS監控曲線。

      • 如果CPU與TPS同步升高,通常是業務流量高峰導致,屬於正常現象。

      • 如果TPS不高但CPU高,可能是應用正在執行大量複雜的密鑰產生或非對稱加解密操作。

    • 分類處理

      • 短期應對:若是業務流量突增導致,評估是否需要臨時增加叢集節點以分擔壓力。

      • 長期最佳化:若是應用調用邏輯問題,需進行代碼最佳化。若為長期性容量不足,請及時進行擴容。

叢集同步狀態異常:若為人工同步類型的中國內地密碼機叢集,可先在執行個體列表頁面,單擊同步叢集,嘗試手動同步。

配額與限制

  • 資料保留期:監控資料最長可查看和儲存30天。

  • 地區與功能限制

    • TPS監控:僅適用於中國內地地區的密碼機執行個體。

    • 叢集TPS監控:僅當叢集內所有執行個體均為中國內地地區的密碼機時可用。

  • 警示配置:TPS監控指標不支援“一鍵警示”,必須通過CloudMonitor設定自訂警示規則。