本文以OSS單表離線同步寫入MaxCompute情境為例,為您介紹OSS離線同步在資料來源配置、網路連通、同步任務配置方面的最佳實務。
背景資訊
阿里雲Object Storage Service(Object Storage Service)是一款海量、安全、低成本、高可靠的雲端儲存體服務,提供99.9999999999%(12個9)的資料持久性,99.995%的資料可用性。還有多種儲存類型供您選擇,全面最佳化儲存成本。Data Integration支援從OSS同步資料到其他目標端,也支援從其他目標端同步資料到OSS。本文以OSS離線同步寫入MaxCompute為例,為您介紹OSS離線同步的完整流程。
擷取OSS Bucket資訊
進入OSS產品控制台。在Bucket列表下,找到您要進行資料同步的OSS Bucket,在Bucket資訊頁面概覽處擷取OSS Bucket的外網訪問連接埠、內網訪問連接埠。您可以根據不同的情境選擇不同的訪問連接埠。
外網指的是互連網。通過外網訪問OSS產生的流入流量(寫)是免費的,流出流量(讀)是收費的。OSS費用詳情請參見OSS產品定價和計費項目。
內網指的是阿里雲同地區產品之間的內部通訊網路。例如您可以通過Data Integration資源群組訪問同地區的OSS服務。內網產生的流入和流出流量均免費,如果您讀寫與Data Integration資源群組同地區的OSS Bucket,您可配置內網訪問連接埠,否則,建議您配置外網訪問連接埠。
Region和Endpoint對照表請參見地區和Endpoint。
前提條件
已購買Serverless資源群組。
已建立OSS資料來源和MaxCompute資料來源,詳情請參見資料來源配置。
已完成資源群組與資料來源間的網路連通,詳情請參見網路連通方案概述。
使用限制
暫不支援將源端資料同步至MaxCompute外部表格。
操作步驟
本文以資料開發(Data Studio)(新版)介面操作為例,示範離線同步任務配置。
一、建立節點與任務配置
對於通用的節點建立和嚮導配置步驟,本文將直接引用通用操作指南嚮導模式配置,不再贅述。
二、配置資料來源與去向
配置資料來源(OSS)
本文檔將OSS資料單表離線同步至MaxCompute,資料來源為OSS檔案,配置要點如下。
配置項 | 配置要點 |
文本類型 | 選擇您要同步的檔案類型,目前嚮導模式支援讀取 |
檔案路徑 | 填寫您要同步的檔案路徑。
|
資料行分隔符號 | 設定檔中的資料行分隔符號。 |
編碼 | 設定讀取源標頭檔所用的編碼格式。 |
null值 |
|
壓縮格式 | 源標頭檔的壓縮格式,支援 |
是否跳過表頭 | 類CSV格式檔案可能存在表頭為標題情況,可選擇是否需要跳過。預設不跳過。 說明 壓縮檔模式下不支援跳過表頭。 |
表資料結構 | 資料來源相關參數配置完成後,請單擊確認表資料結構,查看擷取資料的格式是否符合預期。 |
配置資料去向(MaxCompute)
本文檔將OSS資料單表離線同步至MaxCompute,資料去向為表,配置要點如下。
下表中未說明參數保持預設即可。
配置項 | 配置要點 |
Tunnel資源群組 | MaxCompute的資料轉送資源Tunnel Quota,預設選擇“公用傳輸資源”,即MC的免費quota。如果獨享Tunnel Quota因欠費或到期不可用,任務在運行中將會自動切換為“公用傳輸資源”。 |
表 | 選擇待同步的MaxCompute表。如果您使用的是標準類型的DataWorks工作空間,請確保在MaxCompute的開發環境和生產環境中存在同名且表結構一致的MaxCompute表。 您也可以單擊一鍵產生目標表結構,系統將自動建立表接收資料,支援手動調整建表語句。 說明 如果:
|
分區資訊 | 如果表為分區表,您可以填入分區列的取值。
|
寫入模式 | 寫入目標表時可選擇清理已有資料,或者保留已有資料。 |
三、配置欄位對應
選擇資料來源和資料去向後,需要指定讀取端和寫入端列的映射關係。您可以選擇同名映射、同行映射、取消映射或手動編輯映射關係。
四、配置通道控制
離線同步任務支援設定任務期望最大並發數、髒資料策略等。本教程髒資料策略配置為不容忍髒資料,其他配置保持預設。更多資訊,請參見嚮導模式配置。
五、調試配置並運行
單擊離線同步節點編輯頁面右側的調試配置,設定調試運行使用的資源群組和指令碼參數,然後單擊頂部工具列的運行,測試同步鏈路是否成功運行。
您可以在左側導覽列單擊
,然後單擊個人目錄右側的
,建立一個尾碼為.sql的檔案,執行如下SQL查詢資料去向表中的資料是否符合預期。說明此方式查詢需要將目標端MaxCompute綁定為DataWorks的計算資源。
您需要在
.sql檔案編輯頁面右側單擊調試配置,指定資料來源類型、計算資源、資源群組後,再單擊頂部工具列的運行。
SELECT * FROM <MaxCompute側目標表名> WHERE pt=<指定分區> LIMIT 20;
六、調度配置與發布
單擊離線同步任務右側的調度配置,設定周期運行所需的調度配置參數後,單擊頂部工具列的發布,進入發布面板,根據頁面提示完成發布。