全部產品
Search
文件中心

ApsaraDB for SelectDB:線上服務高可用最佳實務

更新時間:Oct 14, 2025

本文檔旨在為您提供線上服務高可用性的最佳實務,以最大限度地減少服務中斷,提高系統的穩定性和可靠性。

快速入門指引

在深入瞭解高可用最佳實務前,建議您優先查閱以下文檔,以快速上手並瞭解雲資料庫 SelectDB 版的功能特性。

  • (必做)快速入門

    介紹雲資料庫 SelectDB 版的基礎概念、執行個體購買及使用的完整步驟,以及資料庫表設計的關鍵要點,協助您迅速上手雲資料庫SelectDB

  • (可選)資料移轉

    支援將MySQL、PostgreSQL和Doris等多種資料來源的資料移轉至雲資料庫SelectDB

  • (可選)效能測試

    支援Star Schema Benchmark、TPC-H Benchmark和TPC-DS Benchmark測試。

  • (可選)解決方案

    可觀測性湖倉一體

發布變更規範

  • (必做)提前測試

    新功能上線前,務必在測試執行個體上充分測實驗證。高壓力業務上線前,建議補充效能壓測,以評估其在生產環境下的表現。

  • (必做)灰階上線

    建議在低峰期發布變更,並採用分批灰階上線方式(例如:10%→50%→100%),每批次間隔10~30分鐘進行觀察。此外,在第一個業務高峰期進行重點觀察 ,因為低峰期可能無法觸發潛在問題。

營運建議

  • (必做)業務監控

    雲資料庫SelectDB提供較為豐富的監控警示能力。建議業務側從業務使用角度,結合多個關鍵計量進行綜合監控,尤其是平均查詢耗時、99th查詢耗時、查詢成功率、匯入資料速度、CPU使用率和記憶體使用量率等。具體操作,請參見設定警示規則

  • 容量管理

    針對高壓力業務,應提前進行效能最佳化和壓測,評估相應資源可支撐的請求QPS上限。根據業務發展或在促銷活動前,提前評估並擴容。

  • 版本更新

    雲資料庫SelectDB通過3到4位小版本持續修複bug,建議及時升級至2位版本對應的最新3位版本。升級時可先在測試環境驗證,緊急情況下可聯絡支援人員復原。例如,2025年02月06日發布了4.0.4.2版本,此後6個月時間裡迭代了12個版本到4.0.6.1版本,及時升級可規避已知問題。

  • 業務隔離

    對於完全獨立的業務情境,採用獨立的執行個體。對於使用同一份資料支援不同業務的情境,採用多計算群組架構(同一執行個體下的多個物理計算隊列,共用讀寫執行個體中的資料)。

操作演練

  • 執行個體變更

    常見營運操作包括升級、擴容等,應提前演練驗證執行個體變更對業務的影響。雲資料庫SelectDB變更期間存在串連閃斷,需要業務側配合支援異常重試能力。

  • 故障恢複

    雲資料庫SelectDB提供多種故障臨時恢複方案,例如,計算群組故障時快速切換新計算群組、執行個體故障時快速重啟執行個體、計算群組停滯時快速重啟等。建議業務根據需要,提前演練熟悉方案。

高可用架構建議

  • (可選)服務限流

    雲資料庫SelectDB支援邏輯任務隊列Workload Group,可控制不同類型的請求或業務使用相應的Workload Group,並限制其資源使用上限,從而提供突發情境下的服務限流能力。

  • (可選)多可用性區域容災

    雲資料庫SelectDB已支援可用性區域故障容災部署方案,故障情況下支援自動切換,切換恢複耗時在10秒級(RTO)。

  • (可選)資料備份恢複

    對於高度敏感的線上服務情境,可開啟每日定期備份,或在重要變更前進行手動備份。嚴重故障情況下,可利用備份資料快速恢複業務。