MaxCompute同城容災用於應對電訊廠商網路故障、IDC停電、機房設施故障、叢集故障等情境。通過開啟多AZ儲存容災和多AZ計算高可用,可有效降低業務停機時間,滿足業務保障需求和行業合規要求。
功能介紹
MaxCompute同城容災支援將資料存放區服務和計算服務的可用性從單一可用性區域(Availability Zone)擴充到同城三個可用性區域,並利用同城三個可用性區域之間的物理隔離特性與低延遲的網路連接,提供跨資料中心的資料即時同步和故障隔離能力,確保業務系統不會因單一資料中心故障而中斷服務,從而增強客戶業務的抗風險能力。
MaxCompute同城容災包含多AZ儲存容災和多AZ計算高可用,詳情介紹如下:
多AZ儲存:是以專案(Project)為單位開啟,支援將存量資料從單一可用性區域本機存放區轉換為三個可用性區域冗餘儲存,增量資料直接同步處理寫入到三個可用性區域。當遇到AZ級故障時,儲存容災可以保障資料讀取和寫入服務不中斷,資料不丟失,滿足資料復原點目標RPO=0的需求。多AZ儲存支援儲存專案中的全量使用者資料,包括中繼資料、使用者權限、全部表類型、物化視圖、UDF、資源(Resource)等。
多AZ計算高可用:將多AZ高可用計算資源與開啟資料多AZ儲存的專案綁定,實現資料存放區和計算的整體同城容災能力。可以在多個AZ中預留充足的多AZ高可用計算資源,當遇到AZ級故障時,計算資源會自動從故障AZ切換到可正常提供服務的AZ。多AZ高可用計算資源支援運行全部作業類型,包括SQL Task、MaxFrame、Cupid Task、MapReduce Task等。

災難恢複指引
實現同城容災功能後當發生AZ級故障時,將會進行以下恢複操作:
使用者收到阿里雲MaxCompute關於故障情況的通知。
服務端會立即在可正常提供服務的AZ調配計算資源,系統自檢專案中表、分區、許可權等資料的完整性和可用性。
用戶端已提交的作業會出現運行失敗的情況,需要重新提交作業,訪問MaxCompute的配置無需修改,如Endpoint、認證資訊、project_name、quota_name等。
作業恢複運行後,繼續關註上層業務運行情況,確保業務整體恢複正常。
應用情境
金融行業
保障銀行的金融服務可以不間斷地分析和處理業務交易資料,並避免因資料中心的故障而導致服務中斷。
關鍵基礎設施
保障電源、水務以及交通等資料分析系統,確保因資料中心故障而導致的社會民生依賴的關鍵資訊服務不發生中斷。
客戶價值
資料冗餘備份。
降低業務停機時間。
滿足行業合規要求。
提供更好的上層業務客戶體驗。
適用範圍
地區限制:華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、華東 2 金融雲、中國香港、新加坡、印尼(雅加達)、馬來西亞(吉隆坡)、德國(法蘭克福)地區支援同城容災。
計費說明
多AZ儲存開啟後,MaxCompute會按照多AZ儲存模式計費。
多AZ計算高可用時,需要購買多AZ高可用計算資源。
使用說明
需要開啟多AZ儲存容災和多AZ計算高可用能力,才能實現儲存和計算的整體同城容災能力。
在儲存容災準備過程中,作業運行不受影響,業務保持無感知狀態。
在儲存容災準備過程中,歷史表分區資料進行中流式寫入時,儲存容災資料準備任務將等待至寫入提交後才啟動。建議客戶定期(每天、每周)切換至新分區寫入資料,以確保所有表和分區完成多AZ儲存轉換。
開啟儲存容災前產生的本地備份資料、TimeTravel資料留在原可用性區域中本機存放區。
開啟儲存容災後產生的本地備份資料、TimeTravel資料會分布在三個可用性區域中冗餘儲存。
開啟多AZ儲存容災
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇 。
在灾备管理頁面,單擊同城容灾頁簽。
單擊新增同城容灾,在彈出的添加同城容灾能力對話方塊,请选择需要容灾的项目。勾選確認將專案添加為同城容災專案,單擊確定。
建立完成後,該專案資料將開始進行儲存容災準備,即將單可用性區域(AZ)資料移轉至三可用性區域(3AZ)儲存。資料準備過程預計需要兩天,完成後專案將具備儲存容災能力。
開啟多AZ計算高可用(部分地區可用)
開啟多AZ計算高可用能力,需要購買多AZ高可用計算資源並將目標專案的預設計算Quota配置為多AZ高可用計算資源。該功能目前僅部分地區可用。
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇 。
在Quota管理頁面,單擊新购Quota。
在資源購買頁面,配置購買參數。
規格類型:選擇多AZ高可用計算資源。
多AZ高可用計算資源單元:選擇要購買的CU數。目前是50 CU起售,增量購買需要是1的整數倍。
單擊立即購買,根據介面提示支付費用,完成購買。
在左側導覽列,選擇 。
可以查看已建立的多AZ高可用计算资源。
將目標專案的默认计算Quota配置為多AZ高可用計算資源。
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
在项目管理頁面,單擊目標專案操作列的管理。
在项目配置頁面,選擇参数配置頁簽。
在基础信息地區,單擊编辑。
將默认计算Quota配置為多AZ高可用計算資源,然後單擊提交。
容災資源觀測
在容災資源觀測頁面可以查看專案容災的整體狀態、可用性區域(AZ)監控資訊和表資料詳情。
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇 。
在灾备管理頁面,單擊同城容灾頁簽。
在同城容灾頁面,單擊已啟用容災的目標專案名稱,進入專案級容災資源觀測頁面。
在基本信息地區,查看當前專案容災整體狀態。如可用性區域(AZ)、管控資訊容災、目前狀態、容災建立時間和上次故障切換時間。
若当前状态為准备中,表示資料正在做多AZ儲存轉換。
若当前状态為正常,表示資料已經在多AZ中儲存,具備AZ級儲存容災能力。
可用区(AZ)监控
展示多AZ高可用計算的監控資訊,使用者可以查看購買並綁定到專案的多AZ高可用計算資源所在的AZ資訊。
可用性區域AZ使用中:表示使用者作業運行在該AZ。
可用性區域AZ(预留):表示如果使用者作業啟動並執行AZ出現故障計算資源將切換到該AZ。
表数据详情
根據Schema名稱和表名精確查詢目標表。預設不選,則展示該專案下所有表資料資訊。
列名稱
說明
Schema名称
專案下Schema。
表名称
表名稱資訊。
是否分区表
該表是否為分區表。
数据最后更新时间
該表最後一次資料更新時間。
数据量
該表的資料量大小。
数据分布
該表資料分布可用性區域。
可用性區域狀態為(准备中):表示資料正在做多AZ儲存轉換。
可用性區域狀態為(使用中):表示資料已經在多AZ中冗餘儲存。
操作
若為分區表,單擊查看分区详情,擷取該分區表各分區的数据最后更新时间、数据量和数据分布。
災難恢複演練
若有災難恢複演練需求,MaxCompute提供專案級災難類比和逃逸的演練方案,具體流程如下。
使用者需先提交工單到阿里雲申請進行災難恢複演練,提供Region、Project Name、Quota Name、演練時間段資訊,演練時間建議選擇業務低峰時進行。
工單經過阿里雲審核通過後,MaxCompute會在專案級容災資源觀測頁面提供故障切換按鈕,使用者可根據系統提示自助切換計算資源啟動並執行可用性區域(AZ),實現災難逃逸,逃逸後新提交的作業將立即執行,因切換AZ過程造成的執行失敗作業需要使用者手動重試。
上述操作僅用於演練情境,真實AZ級災難發生時,系統將自動完成計算資源的故障切換。
取消容災
在左側導覽列,選擇 。
在灾备管理頁面,單擊同城容灾頁簽。
在同城容灾頁簽中,單擊目標專案對應的操作列的取消容灾。
在彈出的取消同城容灾能力對話方塊中,勾選確認要取消專案的容災能力,單擊確定。
取消容災屬於高危操作,取消容災後專案將立刻失去容災能力,請謹慎評估。
取消容災後專案資料重新分配到單可用性區域本機存放區。