全部產品
Search
文件中心

DataWorks:OSS單表離線同步至MaxCompute

更新時間:Nov 27, 2025

本文以OSS單表離線同步寫入MaxCompute情境為例,為您介紹OSS離線同步在資料來源配置、網路連通、同步任務配置方面的最佳實務。

背景資訊

阿里雲Object Storage Service(Object Storage Service)是一款海量、安全、低成本、高可靠的雲端儲存體服務,提供99.9999999999%(12個9)的資料持久性,99.995%的資料可用性。還有多種儲存類型供您選擇,全面最佳化儲存成本。Data Integration支援從OSS同步資料到其他目標端,也支援從其他目標端同步資料到OSS。本文以OSS離線同步寫入MaxCompute為例,為您介紹OSS離線同步的完整流程。

擷取OSS Bucket資訊

進入OSS產品控制台。在Bucket列表下,找到您要進行資料同步的OSS Bucket,在Bucket資訊頁面概覽處擷取OSS Bucket的外網訪問連接埠內網訪問連接埠。您可以根據不同的情境選擇不同的訪問連接埠。

  • 外網指的是互連網。通過外網訪問OSS產生的流入流量(寫)是免費的,流出流量(讀)是收費的。OSS費用詳情請參見OSS產品定價計費項目

  • 內網指的是阿里雲同地區產品之間的內部通訊網路。例如您可以通過Data Integration資源群組訪問同地區的OSS服務。內網產生的流入和流出流量均免費,如果您讀寫與Data Integration資源群組同地區的OSS Bucket,您可配置內網訪問連接埠,否則,建議您配置外網訪問連接埠。

  • Region和Endpoint對照表請參見地區和Endpoint

前提條件

使用限制

暫不支援將源端資料同步至MaxCompute外部表格。

操作步驟

說明

本文以資料開發(Data Studio)(新版)介面操作為例,示範離線同步任務配置。

一、建立節點與任務配置

對於通用的節點建立和嚮導配置步驟,本文將直接引用通用操作指南嚮導模式配置,不再贅述。

二、配置資料來源與去向

配置資料來源(OSS)

本文檔將OSS資料單表離線同步至MaxCompute,資料來源為OSS檔案,配置要點如下。

配置項

配置要點

文本類型

選擇您要同步的檔案類型,目前嚮導模式支援讀取csvtextorcparquet檔案格式。

檔案路徑

填寫您要同步的檔案路徑。

  • 當指定單個OSS Object時,OSS Reader暫時只能使用單線程進行資料幫浦。

  • 當指定多個OSS Object時,OSS Reader支援使用多線程進行資料幫浦。可以根據具體要求配置線程並發數。

  • 當指定萬用字元時,OSS Reader嘗試遍曆出多個Object資訊。例如配置為abc*[0-9]時,可以匹配到abc0abc1abc2abc3等;配置為abc?.txt時,可以匹配到以abc開頭、 .txt結尾、中間有1個任一字元的檔案。

資料行分隔符號

設定檔中的資料行分隔符號。

編碼

設定讀取源標頭檔所用的編碼格式。

null值

  • 選擇“不處理”時,即對於源端讀取的值將繼續保持原值不做任何處理

  • 選擇“可見字元”時,請輸入表示null值的字串,置空則代表為空白字串。

  • 選擇“不可見字元”時,請輸入Unicode編碼,比如\u001b\u007c,或者\t等轉義符號,但不允許置空。

壓縮格式

源標頭檔的壓縮格式,支援GzipBzip2Zip和不壓縮。

是否跳過表頭

類CSV格式檔案可能存在表頭為標題情況,可選擇是否需要跳過。預設不跳過。

說明

壓縮檔模式下不支援跳過表頭。

表資料結構

資料來源相關參數配置完成後,請單擊確認表資料結構,查看擷取資料的格式是否符合預期。

配置資料去向(MaxCompute)

本文檔將OSS資料單表離線同步至MaxCompute,資料去向為表,配置要點如下。

說明

下表中未說明參數保持預設即可。

配置項

配置要點

Tunnel資源群組

MaxCompute的資料轉送資源Tunnel Quota,預設選擇“公用傳輸資源”,即MC的免費quota。如果獨享Tunnel Quota因欠費或到期不可用,任務在運行中將會自動切換為“公用傳輸資源”。

選擇待同步的MaxCompute表。如果您使用的是標準類型的DataWorks工作空間,請確保在MaxCompute的開發環境和生產環境中存在同名且表結構一致的MaxCompute表。

您也可以單擊一鍵產生目標表結構,系統將自動建立表接收資料,支援手動調整建表語句。

說明

如果:

  • 開發環境不存在待同步的MaxCompute表,則在配置離線同步節點的去向表的下拉框中無法搜尋到待同步表。

  • 生產環境不存在待同步的MaxCompute表,同步任務提交發布後,資料同步任務調度運行時將會由於無法找到待同步表而導致同步任務運行失敗。

  • 開發環境和生產環境的表結構不一致,同步任務提交發布後,同步任務實際調度運行時的列對應關係,可能與此處離線同步節點配置的列對應關係不一致,最終導致資料寫入不正確。

分區資訊

如果表為分區表,您可以填入分區列的取值。

  • 取值可以是固定值,如ds=20220101

  • 取值可以是調度系統參數,如ds=${bizdate},當任務運行時,會自動替換調度系統參數。

寫入模式

寫入目標表時可選擇清理已有資料,或者保留已有資料。

三、配置欄位對應

選擇資料來源和資料去向後,需要指定讀取端和寫入端列的映射關係。您可以選擇同名映射同行映射取消映射手動編輯映射關係

四、配置通道控制

離線同步任務支援設定任務期望最大並發數髒資料策略等。本教程髒資料策略配置為不容忍髒資料,其他配置保持預設。更多資訊,請參見嚮導模式配置

五、調試配置並運行

  1. 單擊離線同步節點編輯頁面右側的調試配置,設定調試運行使用的資源群組指令碼參數,然後單擊頂部工具列的運行,測試同步鏈路是否成功運行。

  2. 您可以在左側導覽列單擊image,然後單擊個人目錄右側的image,建立一個尾碼為.sql的檔案,執行如下SQL查詢資料去向表中的資料是否符合預期。

    說明
    SELECT * FROM <MaxCompute側目標表名> WHERE pt=<指定分區> LIMIT 20;

六、調度配置與發布

單擊離線同步任務右側的調度配置,設定周期運行所需的調度配置參數後,單擊頂部工具列的發布,進入發布面板,根據頁面提示完成發布