全部產品
Search
文件中心

Dataphin:半停機、停機升級Dataphin

更新時間:Mar 06, 2026

本文介紹如何在Dataphin Manager中停機升級Dataphin版本。

前提條件

  • 已瞭解版本升級的影響範圍,詳情請參見版本升級的影響範圍

  • 當前沒有進行中的配置和升級。如果系統正處於升級中的狀態,請等待當前升級完成,或在必要時強制終止進行中的版本升級後,再次進行升級。

背景介紹

半停機、停機升級Dataphin版本的操作可分為三個主要步驟:選擇版本及升級模式、升級、以及升級結束後校正升級結果。在升級過程中,均需進入升級維護模式。半停機模式下,升級應用完成後使用者即可登入Dataphin;停機升級模式下,使用者無法正常登入Dataphin。

當前Datahin執行個體版本低於V5.1.1,則升級模式僅支援停機升級不停機升級;若目前的版本高於或等於V5.1.1,則支援半停機升級停機升級不停機升級。半停機、停機升級完整的升級流程如下圖:

image
  • 終止升級:處於強制終止任務運行應用尚未停止階段(即處於停機階段但尚未開始停機)時,支援終止升級。終止升級後,系統將恢複任務下發退出升級維護模式;使用者可以選擇是否自動重跑強制終止的執行個體。如果未選擇自動重跑,後續可在任務營運功能模組中進行手動重跑。

  • 強制終止升級:處於升級開始後的任一階段(包含強制終止任務運行、停機、預升級、Database Backup、升級應用、重跑任務和資料更新)均可以強制終止升級,並可選擇將本次升級置為成功或失敗。然而,強制終止升級系統無法自愈,可能會導致Dataphin不可用。因此,在執行強制終止前務必確認已經通過手動方式完成升級或復原操作。建議僅由專業營運人員進行確認並實施強制終止升級操作。

操作步驟

步驟一:選擇版本及升級模式

  1. 在Dataphin的登入地址後補充輸入/opsconsole/v2,跳轉至Dataphin Manager的登入介面。

  2. 在Dataphin Manager的登入介面輸入使用者名稱密碼後,單擊登入(使用者名稱和密碼您可聯絡Dataphin營運人員擷取)。

  3. 在Dataphin Manager的首頁單擊系統配置

  4. 升級記錄頁面單擊升級Dataphin

  5. 在升級Dataphin頁面中,選擇版本及升級模式。參數及說明如下表。

    參數

    說明

    升級配置

    目標版本

    在版本列表中選擇要升級至的目標版本。

    若版本列表中未包含所需的目標版本,可單擊上傳版本配置,上傳目標版本設定檔。

    設定檔上傳完成後,系統將進行設定檔校正。若配置檔案內容不正確,則校正不通過,系統將會報錯並展示失敗原因;若設定檔通過校正,且系統中尚未包含該版本的設定檔,此時繼續上傳將匯入該版本配置;若設定檔通過校正,且系統中已包含該版本的設定檔,此時繼續上傳將覆蓋系統配置

    設定檔

    • 標準化配置:單擊上傳檔案,上傳YAML或zip格式的設定檔。上傳後可下載設定檔。

      設定檔上傳完成後,系統將進行設定檔校正。若設定檔中未包含所有配置項,系統將會報錯,可單擊報錯資訊中的查看詳情,查看缺失配置項的列表。

    • 非標準化配置:在上傳檔案前,您可與Dataphin營運團隊溝通擷取所需的設定檔(zip格式)。單擊上傳檔案,上傳擷取到的設定檔。設定檔上傳完成後,系統將自動進行以下校正:

      • 設定檔中的版本標準化配置模板(product/dataphin/...)與上傳的版本配置是否相同(MD5校正一致)。若不一致,系統將提示:設定檔中的配置模板與選擇的版本不相容,建議您與Dataphin營運團隊進行確認,確認無誤後再繼續升級。

      • 設定檔中的overlay檔案values.yaml檔案版本標準化配置模板 (product/dataphin/...)是否相容。若不相容,系統將阻斷本次升級,並提示:設定檔中的配置資訊與選擇的版本不相容,無法繼續升級,請您與Dataphin營運團隊進行確認。

      • 設定檔中的values.yaml檔案與您當前線上環境中啟動並執行values.yaml檔案是否一致。若不一致,系統將提示:設定檔中的配置資訊與當前環境的線上配置不一致,繼續升級將使用新設定檔繼續升級。

      說明

      若無特殊情況,無需使用非標準化配置。

    升級模式

    選擇半停機升級停機升級,升級時,資料服務不停服,且資料服務API同步調用持續可用。除了Dataphin目前的版本與目標版本的版本號碼前三位相同的情境外,其他升級路徑均建議您使用半停機升級。

    • 半停機升級大幅縮減調度停服時間,且無需停止正在啟動並執行任務。

    • 停機升級升級期間暫停任務調度,且需要停止正在啟動並執行任務。

    說明

    半停機升級或停機升級過程中,非同步呼叫StarRocks、MaxCompute、Databricks、OceanBase資料來源相關的資料服務API時,資料服務不停服,可持續調用。

    通過目前的版本及目標版本的可相容性配置,來確認是否支援不停機升級。若不支援不停服升級,則預設選擇停服升級。

    公告配置

    預計完成時間

    選擇預計退出升級維護模式的時間,預設為目前時間。時間格式為YYYY-MM-DD hh:mm。

    聯絡郵箱

    升級過程中可聯絡的連絡人郵箱資訊。

    聯絡電話

    升級過程中可聯絡的連絡人電話資訊,可以是固定電話,也可以是手機號碼。

  6. 選中風險聲明後,單擊進入升級維護模式

    單擊進入升級維護模式後,系統將記錄進入升級維護模式的時間。進入升級維護模式後,系統將進行以下操作:

    • 儲存當前配置,並在升級記錄中產生一條狀態為升級中的記錄,此時無法再次發起新的升級流程。

    • 暫停下發調度任務。在升級完成後恢複任務下發:

      開發/生產環境:任務調度=關、任務執行=開

      說明
      • 任務調度開關:表示周期任務調度是否開啟。任務調度關閉後,周期任務將不再下發運行,已在運行階段的任務執行個體不受影響將繼續運行;補資料任務、臨時查詢不受影響。

      • 任務執行開關:表示任務是否下發到資源調度。補資料任務、周期任務、臨時查詢都受影響,未啟動並執行執行個體均不再下發運行,已在運行階段的任務執行個體不受影響將繼續運行。

      開發環境的任務調度開關預設關閉,不可開啟。

    • 前端將進入升級維護模式,不再允許操作。

    若單擊儲存,系統將在升級記錄列表中產生一條狀態為配置中的記錄,可在升級記錄列表中單擊繼續升級,進入編輯。

步驟二:開始升級

半停機升級

  1. Database Backup

    • 使用自建PostgreSQL庫

      單擊開始備份,當Database Backup狀態為備份中時,可單擊下一步

      Database Backup的狀態分為未備份啟動中備份中備份完成備份失敗

    • 使用RDS或其他類型資料庫

      使用RDS資料庫時,必須前往RDS控制台進行備份。單擊去RDS備份,跳轉至RDS資料庫控制台。

      可選中風險聲明,並單擊下一步,跳過Database Backup步驟。

    說明

    Database Backup的狀態不影響升級任務。當升級完成,但Database Backup未完成時,依然可完成本次升級;當升級過程中強制終止升級,Database Backup也不會停止,不會影響進行中的備份。

  2. 預升級

    單擊開始預升級,所有應用開始進行預升級,預升級完成進度由進度條展示完成比例,下方服務列表展示具體預升級狀態。當預升級完成後,單擊下一步

  3. 升級應用

    單擊開始升級,在提示對話方塊中單擊確定後,系統將停止調度(不影響正在啟動並執行任務),並開始升級,預計持續30分鐘。升級應用步驟成功完成後,單擊退出升級維護模式並下一步,退出維護模式,同時系統將記錄恢複任務下發和退出升級維護模式的完成時間。若升級應用步驟失敗,請聯絡Dataphin營運人員,此時無法退出升級維護模式。

    說明

    退出維護模式後,系統將恢複調度並可正常訪問,但不代表升級已完成,還需繼續執行資料更新步驟。

    開始啟動應用(資料服務的線上交易處理(OLTP)應用需進行版本滾動升級,具體步驟為啟動新版本並逐步替換老版本應用)。啟動的進度及狀態由升級狀態進度條展示,完成應用啟動(即升級後),自動進入下一步。

    在資源充足時,先啟動新版本的OLTP、mgmt、Gateway應用,再停止舊版的OLTP、mgmt、Gateway應用;資源不充足時,可能會出現某些時刻沒有可用應用的情況,在啟動mgmt應用後,需要單獨對資料服務的OLTP和Gateway應用進行升級。

    若部分應用升級失敗,可單擊Java Thread Dump來診斷相應應用的問題,或單擊重啟,來重啟相應應用的Java進程。無論應用升級是否成功,都可單擊頁面右上方的查看日誌,來查看升級應用的具體日誌資訊。

  4. 資料更新

    單擊更新並下一步,系統將自動執行所有未成功執行的資料更新任務。資料更新列表中不包含不需要執行的任務(即非阻塞任務),已在運行中的任務和運行成功的任務將不會再次運行;運行失敗和未啟動並執行任務將觸發運行。

    可以單擊運行,來啟動相應任務;如有必要,可單擊終止來終止相應正在運行中的任務。運行和終止均支援大量操作。當任務狀態為運行成功、運行中、運行終止和運行失敗時,支援單擊日誌詳情查看任務啟動並執行日誌詳情。

    資產回刷任務支援查看資產回刷詳情。當升級後中繼資料的格式變更,需要升級資產中繼資料。通過觸發訊息進行資產中繼資料的升級。資產回刷詳情中包含總訊息數、剩餘訊息數、成功訊息數和失敗訊息數。其中總訊息數為初始階段每個應用上報的總數;失敗訊息數為處理失敗的訊息數。資料更新中若包含處理失敗的訊息,需要Dataphin營運團隊確認是否可忽略,確認後再繼續升級。

    中繼資料採集任務,可手動啟動中繼資料採集任務,支援查看任務狀態及日誌詳情,日誌中包含總工作流程數量和已完成工作流程數量。升級過程中,已產生的採集執行個體不做變更且使用最新版本的執行代碼,若執行個體中包含了調度變更,則變更在升級完成後的第二天生效。

說明

升級過程中,可隨時單擊強制終止升級來終止本次升級。需注意,強制終止升級系統無法自愈可能導致Dataphin不可用,強制終止前務必確認已經通過手動方式完成升級或復原操作。建議僅由專業營運人員確認並執行此操作。強制終止升級時可選擇將本次升級置為升級成功或升級失敗,無論置為升級成功或升級失敗系統都將記錄強制完成的時間,並將本次記錄加入到升級記錄列表中。

停機升級

說明

可單擊查看日誌查看服務開機記錄。

  1. 強制終止任務運行

    1. 運行中工作清單中選擇一個或多個任務進行強制終止,可單擊強制終止所有任務並下一步來終止所有任務。強制終止的任務在升級後可重新觸發運行,若任務不可重跑,建議等待任務運行完成後,查看終止工作清單。強制終止工作清單中的任務,升級應用後需要重跑。完成強制終止所有任務時,系統將記錄終止任務下發的完成時間。

      單擊強制終止後,對應任務將從工作清單中移除,並被添加至終止工作清單中。如果任務在強制終止之前已完成或執行失敗,則該任務將不會在工作清單中記錄。

      說明
      • 僅當運行中工作清單為空白,即所有任務都被強制終止或完成運行時,才可進行下一步。若有任務強制終止失敗將會報錯,單擊報錯資訊中的重試再次對此類任務發起強制終止。工作清單每20秒自動重新整理一次。

      • 強制終止的任務需要在重跑任務中手動啟動重跑。

    2. (可選)如有必要,可在升級記錄列表中對本次升級執行終止升級操作。

  2. 停機

    單擊停機並下一步,對所有正在運行中的容器組進行停機。停機進度由停機狀態進度條來展示。

    升級時,資料服務不停服,容器組列表中將展示所有除資料服務外所有的應用程式容器的狀態。

  3. Database Backup

    單擊備份並下一步,開始進行資料備份,備份完成後自動進入下一步。

    備份進度由備份中進度條展示完成比例,若部分Database Backup失敗可單擊查看日誌查看備份失敗日誌,或單擊重新備份,對單個資料庫進行重新備份,單擊重新備份後,該資料庫的備份狀態將被重設。如有必要,可單擊強制終止,來終止相應備份中的資料庫。

    說明
    • 可選中風險聲明,跳過Database Backup步驟。

    • 當使用RDS資料庫時,必須前往RDS控制台進行備份。可單擊去RDS備份,跳轉至RDS資料庫控制台。

  4. 升級應用

    單擊升級應用並下一步,開始啟動應用(資料服務的線上交易處理(OLTP)應用需進行版本滾動升級,具體步驟為啟動新版本並逐步替換老版本應用)。啟動的進度及狀態由升級狀態進度條展示,完成應用啟動(即升級後),自動進入下一步。

    在資源充足時,先啟動新版本的OLTP、mgmt、Gateway應用,再停止舊版的OLTP、mgmt、Gateway應用;資源不充足時,可能會出現某些時刻沒有可用應用的情況,在啟動mgmt應用後,需要單獨對資料服務的OLTP和Gateway應用進行升級。

    升級應用中的服務列表,同停機步驟中的應用列表。若部分應用升級失敗,可單擊Java Thread Dump來診斷相應應用的問題,或單擊重啟,來重啟相應應用的Java進程。無論應用升級是否成功,都可單擊頁面右上方的查看日誌,來查看升級應用的具體日誌資訊。

  5. 重跑任務

    單擊重跑任務並下一步,自動重跑所有尚未重跑的任務,列表中展示本次升級時強制終止的執行個體。任務重跑完成後,將自動進入下一步。也可單擊運行,以重跑對應的單個任務。如有必要,可單擊終止來終止對應任務的運行。運行和終止支援大量操作。如果所選任務中包含已完成或已失敗的任務,則將忽略這些已完成或已失敗的任務,並在操作完成後自動重新整理列表。

    若重跑任務啟動失敗或部分任務重跑啟動失敗,系統將會報錯,可在報錯資訊中單擊重試或直接單擊重跑任務並下一步再次進行重跑任務。

  6. 資料更新

    預設選中運行任務並退出升級維護模式,單擊更新並下一步,系統將自動執行所有未跳過且未成功執行的資料更新任務。當所有阻塞任務運行完畢後,系統將自動回復任務下發,並退出升級維護模式,同時將記錄恢複任務下發和退出升級維護模式的完成時間。非阻塞任務將繼續運行。其中,已在運行中的任務和運行成功的任務將不會再次運行;運行失敗和未啟動並執行任務將觸發運行;跳過的任務將被忽略,不會運行。

    也可以單擊運行,來啟動相應任務;單擊跳過,將該任務視為無論是否運行該任務均不阻塞升級流程並進入下一步。如有必要,可單擊終止來終止相應正在運行中的任務。運行、跳過和終止均支援大量操作。當任務狀態為運行成功、運行中、運行終止和運行失敗時,支援單擊日誌詳情查看任務啟動並執行日誌詳情。

    資產回刷任務支援查看資產回刷詳情。當升級後中繼資料的格式變更,需要升級資產中繼資料。通過觸發訊息進行資產中繼資料的升級。資產回刷詳情中包含總訊息數、剩餘訊息數、成功訊息數和失敗訊息數。其中總訊息數為初始階段每個應用上報的總數;失敗訊息數為處理失敗的訊息數。資料更新中若包含處理失敗的訊息,需要Dataphin營運團隊確認是否可忽略,確認後再繼續升級。

    中繼資料採集任務不可跳過,可手動啟動中繼資料採集任務,支援查看任務狀態及日誌詳情,日誌中包含總工作流程數量和已完成工作流程數量。升級過程中,已產生的採集執行個體不做變更且使用最新版本的執行代碼,若執行個體中包含了調度變更,則變更在升級完成後的第二天生效。

說明

升級過程中,可隨時單擊強制終止升級來終止本次升級。需注意,強制終止升級系統無法自愈可能導致Dataphin不可用,強制終止前務必確認已經通過手動方式完成升級或復原操作。建議僅由專業營運人員確認並執行此操作。強制終止升級時可選擇將本次升級置為升級成功或升級失敗,無論置為升級成功或升級失敗系統都將記錄強制完成的時間,並將本次記錄加入到升級記錄列表中。

步驟三:校正升級結果

已經完成系統升級所有必需的操作,進入升級校正階段。校正升級結果頁面展示執行個體產生數量執行個體狀態對比查看失敗執行個體資訊。

使用者可通過查看升級後的執行個體產生數量、執行個體狀態對比、查看失敗執行個體確認失敗原因等校正升級結果。確認升級成功後,單擊完成,完成本次Dataphin版本升級,系統會將此時的時間記錄為完成升級的時間;若升級結果不符合預期,請聯絡Dataphin營運團隊進行確認及修複。

  • 執行個體產生數量:分為最近生產執行個體數和近7日平均執行個體數,執行個體產生時間固定為每日23點。

    • 最近生產執行個體數:動態查詢最後一次執行個體產生的資訊,並展示執行個體產生的數量及對應業務日期。若無產生執行個體,則展示待產生。日期格式統一為YYYY-MM-DD

    • 近7日平均執行個體數:業務日期從T-8到T-2的日均執行個體數,若未產生則不計數。若近7天均為產生執行個體,則展示為NA

  • 執行個體狀態對比:通過業務日期(預設為T-1)和租戶來篩選資料,並由環形圖和柱狀圖分別展示執行個體的狀態分布和近7日的執行個體數。

    • 狀態分布:展示經過篩選後的執行個體的狀態分布。

    • 近7日執行個體數:展示經過篩選後的按狀態分類的執行個體數量及總執行個體數量。

  • 查看失敗執行個體:失敗執行個體列表中展示今日運行失敗且昨日運行成功的任務執行個體,包含各執行個體的執行個體ID、節點ID、任務名稱、節點類型、調度類型、最新動向時間和運行狀態。升級完成後需持續觀察30分鐘,對昨日運行成功且今日運行失敗的任務進行重跑,仍失敗的任務可根據作業記錄判斷是否為任務本身異常。工作清單每20秒重新整理一次,同時更新任務狀態。