資料來源是將外部資料系統(如資料庫、儲存服務)的串連資訊統一註冊到DataWorks的平台對象。建立資料來源後,您即可在DataWorks平台內引用該資料來源,進行資料讀寫操作。DataWorks支援多種資料來源類型,覆蓋了主流資料庫、巨量資料儲存及訊息佇列等。為保障資料安全,標準模式的工作空間支援資料來源環境隔離功能。您可以為開發環境和生產環境分別配置獨立的資料來源。開發環境資料來源僅用於節點的開發與調試,而生產環境資料來源則專用於發行節點的周期性調度,兩者嚴格分離,可有效防止測試操作影響生產資料。
功能介紹
資料來源使用
DataWorks的資料來源在工作空間的中進行統一管理和維護。建立完成並測試連接通過後,便可以在DataWorks的各個模組中使用,以下是資料來源使用情境的舉例:
功能模組 | 使用情境 | 支援的資料來源類型 |
Data Integration | 執行資料同步任務,支援不同資料來源間(如MySQL到MaxCompute)的資料移轉,支援單表、整庫、離線、即時等多種形式。 | |
資料開發 | 支援節點的開發調試與周期性調度。若工作空間為標準模式,任務執行時將根據環境自動區分開發與生產資料來源配置。 | |
資料地圖 | 採集資料來源中繼資料,使用者可查看錶結構及血緣資訊。 | |
資料分析 | 串連資料庫進行資料處理、分析、加工及可視化操作。 | |
資料服務 | 基於資料來源表結構產生API服務,提供資料查詢介面。 |
資料來源環境隔離
為保障資料安全,標準模式的工作空間支援資料來源環境隔離功能。您可以為開發環境和生產環境分別配置獨立的資料來源。開發環境資料來源僅用於節點的開發與調試,而生產環境資料來源則專用於發行節點的周期性調度,兩者嚴格分離,可有效防止測試操作影響生產資料。詳情請參見:資料來源環境說明。
前提條件
在開始配置資料來源前,請確保您已滿足以下條件:
許可權要求:您需要擁有目標工作空間的空間管理員或營運角色,或是具備
AliyunDataWorksFullAccess、AdministratorAccess權限原則的RAM使用者。授權詳情請參見空間級模組許可權管控和為RAM使用者授權。串連資訊:已準備好待串連資料來源的必要資訊,例如執行個體或串連地址(Endpoint/JDBC URL)、連接埠、資料庫名、使用者名稱和密碼等。
網路連通性:必須確保DataWorks資源群組管理的網路可訪問您的資料來源;如果您的資料來源通過公網訪問,且您使用的是Serverless資源群組,需要為資源群組綁定的VPC配置NAT Gateway和EIP,否則無法串連。
注意事項
使用限制:通過跨地區、跨帳號、AccessID和AccessKey方式建立的資料來源,無法用於資料開發、任務調度,僅可用於資料同步。
模組建立差異:在標準模式下,管理中心建立的資料來源包括開發環境和生產環境資訊;Data Integration建立的資料來源只有生產環境資訊,建議統一在管理中心建立和維護資料來源。
資料來源建立方式
自動建立
當您在工作空間中綁定一個計算資源(如MaxCompute、Hologres等)時,系統會自動為您建立並管理對應的資料來源。這些資料來源會隨著計算資源的綁定/解除綁定而自動建立/刪除,配置也會同步更新;同時,資料來源的許可權也會完全繼承自其綁定的計算資源。若需對許可權進行單獨設定,可使用手動建立的資料來源。
自動建立配置指導:計算資源管理。
支援的資料來源:
新版資料開發:MaxCompute、AnalyticDB MySQL、AnalyticDB PostgreSQL、AnalyticDB for Spark、ClickHouse、Hologres、Lindorm、StarRocks、OpenSearch。
舊版資料開發:MaxCompute、AnalyticDB MySQL、AnalyticDB PostgreSQL、ClickHouse、Hologres。
上述資料來源如用於資料開發情境,建議使用通過綁定計算資源的方式自動建立,否則資料開發工作單位無法運行。
手動建立
使用者需手動填寫資料來源的執行個體/串連資訊、資料庫、帳號密碼等配置參數。適用所有資料來源類型,您可以自主控制資料來源的新增、變更、刪除以及許可權分配。
手動建立配置指導:建立資料來源。
功能入口
進入管理中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
單擊左側導覽列的,進入資料來源頁面。
單擊頁面左上方的新增資料來源。
建立資料來源
步驟一:選擇串連模式
DataWorks支援執行個體模式和串連串模式方式配置資料來源的串連資訊。
情境1:執行個體模式(當前雲帳號)
若您的資料來源為阿里雲產品(如RDS、PolarDB),且執行個體歸屬於當前主帳號,可選擇執行個體模式建立,只需指定地區與執行個體,系統自動擷取最新資料來源資訊,無需設定地址與連接埠。
若當前沒有合適的執行個體,需要購買新執行個體時,推薦指定其Virtual Private Cloud與DataWorks資源群組使用相同VPC,可以減少網路設定操作。
若已有資料來源執行個體,且該資料來源的VPC與DataWorks資源群組使用的VPC不一致,請務必配置網路連通,以保證資料來源可正常使用。
情境2:執行個體模式(其他雲帳號)
添加資料來源選擇執行個體模式時,若需要訪問其他雲帳號的執行個體,可以通過配置其他雲帳號主帳號ID和RAM帳號授權角色名稱來實現跨雲帳號建立資料來源。
跨帳號建立的資料來源需要確保:
使用的RAM角色對目標資料來源有存取權限,跨帳號授權參見:跨帳號授權(RDS、Hive或Kafka)、跨帳號授權(MaxCompute、Hologres)。
使用方帳號(當前帳號)的資源群組與資源方帳號(其他帳號)的資料來源之間的網路連通。
情境3:串連串模式
對於部署在ECS、本地IDC或公網環境的自建資料來源,或使用阿里雲執行個體但內網無法訪問資料來源,可使用串連串模式。您可以手動設定網路地址(Endpoint/JDBC URL)、連接埠、資料庫名及認證憑證(使用者名稱/密碼/AccessKey)。
使用串連串模式配置資料來源,需確保使用的IP地址和連接埠與DataWorks資源群組的網路是否連通,請根據需要確定是否開通公網訪問以及安全性群組和白名單等配置。詳情參見:網路連通方案。
如果您的資料來源IP經常變動,或無法通過IP直接存取,例如:資料來源通過Host的網域名稱託管,需通過網域名稱被外部存取時,您可以通過為獨享Data Integration資源群組綁定Host或者為Serverless資源群組配置內網DNS解析 (PrivateZone)來解決此問題。
使用串連串模式時,DataWorks 將自動解析 JDBC URL。若 URL 包含不支援參數,系統會自動移除該參數。如需保留特殊參數,請通過聯絡支援人員處理。
步驟二:填寫串連資訊
在標準模式下,您需要分別為開發環境和生產環境配置串連資訊。您可以選擇兩個環境使用相同或不同的配置。
資料來源名稱:在工作空間內保持唯一,建議使用可清晰識別業務和環境的命名,例如
rds_mysql_order_dev。資料來源描述:簡要說明資料來源的用途。
串連資訊:根據上文描述的串連模式,填寫資料來源的執行個體或者URL地址、連接埠等資訊。
步驟三:設定帳號密碼
DataWorks支援多種資料來源的認證方式,您可根據資料來源類型和配置介面的參數提示,設定資料來源的認證憑據。請確保使用的憑據具備對資料庫的存取權限,否則後續使用會出錯。
認證方式 | 使用情境 |
帳號密碼 | 適用於大部分資料庫類型(如RDS、StarRocks等),DataWorks可通過帳號密碼驗證機制訪問資料來源,相關憑證需由資料來源方提供。 |
RAM帳號 | 支援以下多種指定方式。適用於支援RAM帳號認證的阿里雲產品,如MaxCompute,Hologres等。您可以根據帳號要求的權限進行設定。
|
Kerberos認證 | 第三方身份認證機制。適用於Hive、HDFS和HBase等巨量資料元件,使用Kerberos認證需上傳Keytab、krb5.conf等認證檔案,配置指南:第三方認證檔案管理。 |
AccessKey | 存取金鑰管理(AccessKey)(簡稱 AK)是阿里雲提供的一種永久訪問憑據,由AccessKey ID和AccessKey Secret組成。適用於OSS、TableStore等資料來源。AccessKey的安全性較低,需妥善保管。若有其他登入方式,如RAM角色授權模式,建議優先採用。 |
若您的資料庫開啟了SSL認證,建立資料來源時也需要開啟SSL認證,操作流程可參考:PostgreSQL資料來源增加SSL認證。
步驟四:測試連通性
在頁面下方,針對工作空間綁定的資源群組,單擊測試連通性。此步驟至關重要,可確保DataWorks能成功訪問您的資料來源。
如果顯示可連通,則表示配置無誤。
如果顯示無法連通,系統會彈出診斷工具輔助排查。常見原因包括憑證錯誤、網路不通(IP白名單未配置)或NAT Gateway缺失等。
標準模式下,請務必保證開發環境和生產環境均為可連通,否則後續使用將出錯。
您可根據資料來源的配置模式以及資料來源的地區資訊、執行個體歸屬和部署位置等情況配置網路,以下是常見情境的配置方案:
情境 | 操作說明 |
資料來源是阿里雲產品,且與DataWorks工作空間歸屬於同一阿里雲主帳號、同一地區。 | |
資料來源是阿里雲產品,與DataWorks工作空間歸屬於同一阿里雲主帳號,但不同地區。 | |
資料來源是阿里雲產品,但與DataWorks工作空間歸屬於不同阿里雲主帳號。 | |
資料來源部署在阿里雲ECS中。 | |
資料來源部署在本地IDC中。 | |
資料來源具備公網連結地址。 |
管理資料來源
在資料來源管理頁面,您可根據資料來源類型、資料來源名稱篩選需要查看的資料來源。同時,支援您對目標資料來源執行如下管理操作:
編輯、複製與許可權
刪除資料來源及影響
在資料來源列表,單擊資料來源的刪除按鈕,可以進行刪除操作。但在計算資源管理中綁定計算資源時自動建立的資料來源無法直接刪除。您可以在管理中心左側導覽列單擊計算資源,找到待刪除的計算資源,然後單擊解除綁定。解除綁定完成後會同步刪除該資料來源。
刪除資料來源對Data Integration模組的影響如下:
前置操作:在執行刪除前,請務必確認該資料來源是否關聯了任何生產環境的同步任務。
解決方案:若存在關聯任務,請先通過大量操作修改任務歸屬的資料來源,並重新提交、發布。
刪除情境 | 操作影響 |
刪除【開發】和【生產】兩個環境 | • 生產任務將徹底失敗,無法運行。 • 在開發環境配置新任務時,該資料來源不可見。 |
僅【開發】環境 | • 生產任務可正常運行。 • 但編輯該任務時,無法擷取中繼資料(如表結構)。 • 在開發環境配置新任務時,該資料來源不可見。 |
僅【生產】環境 | • 生產任務將徹底失敗,無法運行。 •在開發環境使用此資料來源的任務,將無法提交發布到生產環境。 |
對其他模組的影響如下:
功能模組 | 風險等級 | 核心影響及解決方案 |
營運中心 | 高 | 影響:所有依賴該資料來源的周期計算/Data Integration任務將運行失敗。 方案:通過大量操作修改任務的資料來源,並重新發布。 |
資料服務API | 高 | 影響:所有基於該資料來源產生的產生API及服務編排將調用失敗。 方案:為受影響的API更換資料來源。 |
資料分析 | 中 | 影響:在資料分析模組中,針對該資料來源的查詢任務將執行失敗。 方案:在執行SQL查詢時,更換為其他可用資料來源。 |
資料品質 | 中 | 影響:已配置的資料品質監控規則的任務將檢查異常。 方案:前往營運中心,將任務與DQC規則取消關聯,或修改規則。 |
若資料來源已授權跨工作空間的使用者使用,刪除資料來源後,跨工作空間使用該資料來源的任務也會執行失敗。
進階說明
資料來源環境說明
工作空間模式:簡單 VS 標準
為提供不同安全管控要求的使用者生產資料,DataWorks為您提供簡單模式和標準模式兩種工作空間模式。詳見:必讀:簡單模式和標準模式的區別。
簡單模式:只有一個環境,所有開發操作直接作用於生產,適合快速驗證或個人測試使用。
標準模式:標準模式(企業級推薦),內建開發環境與生產環境。您可以為兩個環境配置不同的資料來源(如測試庫與生產庫)或不同的存取權限,實現資料隔離。
資料來源環境隔離
標準模式的工作空間支援資料來源環境隔離。同一個名稱的資料來源可存在開發環境和生產環境兩套配置,設定兩個不同的資料庫/執行個體,使任務在測試和生產調度時操作的資料隔離,確保生產環境資料的安全。如:執行資料開發或離線同步任務時,系統自動根據任務當前所在環境,訪問對應的資料庫,避免生產庫的資料被節點調試等操作汙染。
Data Integration模組中僅標準模式工作空間下的單表離線同步任務支援資料來源開發、生產隔離,其他類型同步任務均使用生產環境資料來源。
僅配置生產環境,未配置開發環境資訊的資料來源,在資料開發配置節點時,無法選擇該資料來源。
若簡單模式升級為標準模式,會將原有的一個資料來源拆分為生產環境和開發環境隔離的兩個資料來源。詳情請參見情境:工作空間模式升級(簡單模式升級標準模式)。
與Data Integration模組資料來源的關係
簡單模式:
工作空間為簡單模式時,僅擁有一個環境,在Data Integration側建立的資料來源與管理中心側建立的資料來源之間無區別。
標準模式:
在管理中心建立資料來源,會自動在Data Integration側建立的同名資料來源,兩者共用資料來源的生產環境配置。
在Data Integration側建立資料來源,也會自動在管理中心建立同名資料來源。但該資料來源僅具備生產環境資訊,開發環境會顯示資訊缺失。此類資料來源需補全開發環境資訊後才可以在資料開發中使用。
為保證資料來源資訊完整,建議您始終在“管理中心”統一建立和管理所有資料來源。
常見問題
標準模式工作空間中配置了資料來源的任務,在開發環境執行成功,在生產調度時執行失敗?
分別排查資料來源的開發環境和生產環境測試連接是否成功。
分別排查開發環境和生產環境的資料庫資料內容是否一致,且符合業務現狀。
開發環境資料來源和生產環境資料來源有什麼用?
您可以為開發環境和生產環境分別配置獨立的資料來源。開發環境資料來源僅用於節點的開發與調試,而生產環境資料來源則專用於發行節點的周期性調度,兩者嚴格分離,可有效防止測試操作影響生產資料。
為什麼資料來源連通性測試失敗?
通常由以下原因導致,請逐一排查。網路聯通配置可參考:網路連通。
憑證錯誤:檢查您填寫的使用者名稱、密碼是否正確 。
訪問對象:檢查您填寫的資料庫、Bucket等連線物件名稱是否正確,以及所使用的帳號密碼是否有存取權限。
地址或連接埠錯誤:檢查資料來源的串連地址和連接埠號碼是否填寫無誤。若地址填寫的是HOST網域名稱,確保網域名稱可被正常解析,參見:內網DNS解析 (PrivateZone)。
網路不通:確檢查資料來源與資源群組的網路是否連通,如果資料來源有白名單控制,檢查資源群組已綁定的交換器網段是否已添加到白名單中;若使用Serverless資源群組串連公網資料來源,請檢查是否已按要求配置NAT Gateway。
計算資源和資料來源有什麼區別?
計算資源是指DataWorks中可用於執行資料處理和分析任務的資源執行個體,具有計算操作能力。它通常指代底層的計算引擎,例如MaxCompute、Hologres、AnalyticDB等,主要用於執行資料開發和調度任務。
資料來源在DataWorks中可用於串連不同的資料存放區服務,具有儲存和管理資料的功能。資料來源的作用是提供資料讀取和寫入的介面,主要用於同步和整合任務。除此之外,資料來源也可以支援如資料庫節點、資料服務API、查詢分析等功能。