如需在DataWorks使用相關執行個體(例如MaxCompute、Hologres等)進行資料開發,需先將其綁定為DataWorks的計算資源。本文介紹如何建立與管理計算資源,為後續任務開發、調度運行提供基礎能力。
計算資源和資料來源關係
DataWorks支援多種計算資源的綁定與使用,綁定完成後,您可直接在DataWorks資料開發開展複雜資料處理及周期性調度任務開發。同時,大部分計算資源綁定至DataWorks後,將自動建立同名資料來源,您也可通過Data Integration模組基於該資料來源執行資料同步等操作。計算引擎和資料來源的區別如下:
計算資源是計算引擎用於執行資料處理和分析任務的資源執行個體,具有執行計算操作的功能。
資料來源用於串連不同的資料存放區服務,具有儲存和管理資料的功能。
支援的計算資源
在DataWorks中,支援綁定如下計算資源進行資料開發。
類別 | 計算資源類型 | 綁定計算資源操作指導 | 新版資料開發 | 舊版資料開發 |
離線計算 | ||||
即時查詢 | ||||
Realtime Compute | ||||
多模態搜尋 | ||||
叢集管理 | ||||
綁定MaxCompute、AnalyticDB for MySQL、AnalyticDB for PostgreSQL、AnalyticDB for Spark、ClickHouse、Hologres、Lindorm、EMR Serverless StarRocks和OpenSearch計算資源時,會在當前工作空間同步產生一個同名的資料來源。
許可權說明
僅擁有營運或空間管理員角色的空間成員,以及擁有AliyunDataWorksFullAccess、AdministratorAccess權限原則的空間成員可建立計算資源,授權詳情請參見空間級模組許可權管控,為RAM使用者授權。
除上述許可權外,部分計算資源建立時還會存在其他許可權控制,請根據介面提示進行授權。
綁定計算資源
您可根據建立的工作空間是否使用新版資料開發(Data Studio),從相應的入口建立綁定計算資源。
使用新版資料開發綁定計算資源
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
在左側導覽列單擊計算資源,進入計算資源清單頁。根據您需要綁定計算資源類型,參照對應文檔進行操作。
未使用新版資料開發綁定計算資源
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
在左側導覽列單擊
表徵圖,進入計算資源列表頁。根據您需要綁定計算資源類型,參照對應文檔進行操作。計算資源管理:通過單擊右上方的建立計算資源按鈕來建立計算資源。
叢集管理:通過單擊計算資源列表頁右上方的建立叢集按鈕來建立叢集引擎。
叢集管理
支援叢集版本/類型
綁定叢集相關文檔
綁定CDH/CDP叢集
DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接選擇,該類叢集版本配套的組件版本(即叢集串連資訊中各組件的版本)固定。若該類叢集版本不滿足您的業務需要,您可選擇自訂版本。
綁定EMR叢集
支援EMR叢集類型:DataLake叢集(新版資料湖):EMR on ECS、Custom叢集(自訂叢集):EMR on ECS、Hadoop叢集(舊版資料湖):EMR on ECS、Spark叢集:EMR on ACK和EMR Serverless Spark叢集。
重要支援在DataWorks使用以下EMR版本的Hadoop叢集(舊版資料湖):
EMR-3.38.2、EMR-3.38.3、EMR-4.9.0、EMR-5.6.0、EMR-3.26.3、EMR-3.27.2、EMR-3.29.0、EMR-3.32.0、EMR-3.35.0、EMR-4.3.0、EMR-4.4.1、EMR-4.5.0、EMR-4.5.1、EMR-4.6.0、EMR-4.8.0、EMR-5.2.1、EMR-5.4.3
Hadoop叢集(舊版資料湖)已不建議使用,請儘快遷移至DataLake叢集,詳情請參見Hadoop叢集遷移至DataLake叢集。
解除綁定計算資源
請謹慎解除綁定計算資源。解除綁定操作將同步刪除與該計算資源關聯的同名資料來源,可能對多個模組(如Data Integration、營運中心、資料分析、資料服務 API、資料品質等)中引用此計算資源或資料來源的任務造成影響。為確保業務正常運行,請在解除綁定前仔細閱讀介面提示,並將該計算資源下的所有任務遷移至其他計算資源。
您可按需解除綁定計算資源,在計算資源頁面,找到已綁定的計算資源,單擊右側解除綁定,將計算資源從本工作空間解除綁定。
附錄:任務執行環境說明
標準模式工作空間下,一個計算資源執行個體存在開發環境和生產環境兩套配置,不同環境可以指定不同的資料庫或執行個體,系統將通過運行環境自動對應訪問不同的計算資源,從而實現開發測試與生產調度的隔離。例如,執行離線同步任務時,開發環境自動訪問預配置的開發環境資料庫,而生產調度則訪問生產庫。