若您要使用DataWorks進行Lindorm任務的開發、管理,需先將您的Lindorm執行個體綁定為DataWorks的Lindorm計算資源。綁定完成後,可在DataWorks中使用該計算資源進行資料同步和開發等操作。
背景資訊
Lindorm是雲端式原生架構的分散式運算服務,支援社區版計算模型、相容Spark介面,並深度融合Lindorm儲存引擎特性。能夠利用底層資料存放區特徵及索引能力,高效完成分布式作業任務,適用于海量資料處理、互動式分析、機器學習和圖計算等情境。
前提條件
已建立工作空間。
重要僅支援使用新版資料開發(Data Studio)的工作空間。
已建立Lindorm執行個體,該執行個體需要滿足以下條件:
該Lindorm執行個體已開通計算引擎。
該Lindorm執行個體與DataWorks工作空間在同一地區。
已使用Serverless資源群組,並綁定到目標DataWorks工作空間。
綁定Lindorm計算資源
使用限制
地區限制:華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)。
許可權限制:
僅支援使用DataWorks Serverless資源群組在DataWorks運行Lindorm任務。
僅擁有營運和空間管理員角色的空間成員,或擁有AliyunDataWorksFullAccess許可權的空間成員可建立計算資源。查看成員角色或授權詳情請參見增加空間成員並管理成員角色許可權。
進入計算資源清單頁
前往DataWorks工作空間列表頁,在頂部切換至目標地區,找到需要建立計算資源的工作空間。單擊工作空間名稱或操作列的詳情,進入工作空間詳情頁。
在左側導覽列單擊計算資源,按需選擇計算資源類型,進入計算資源清單頁。
綁定Lindorm計算資源
在計算資源清單頁,您可參考以下參數資訊配置綁定Lindorm計算資源。
選擇綁定計算資源類型。
單擊綁定計算資源,進入綁定計算資源頁面。
在綁定計算資源頁面選擇計算資源類型為Lindorm,進入綁定Lindorm計算資源配置頁面。
配置Lindorm計算資源。
在綁定Lindorm計算資源配置頁面,您可根據下表內容進行相應配置。
配置地區
參數
配置說明
基本資料
配置模式
僅支援阿里雲執行個體模式。
執行個體
此處下拉展示您當前地區的Lindorm執行個體,請從中選擇需要綁定至DataWorks的Lindorm執行個體。
資料庫名稱
請選擇DataWorks上使用該Lindorm計算資源時預設串連的資料庫,預設串連
default資料庫。使用者名稱/密碼
請填寫DataWorks使用該Lindorm計算資源時用於身份認證的使用者名稱和密碼資訊。您可以在Lindorm管理主控台中找到所建立的Lindorm執行個體,單擊執行個體名稱,在左側的資料庫連接中擷取使用者名稱和密碼資訊。
計算資源執行個體名
自訂計算資源執行個體名。在任務運行時,可根據計算資源名稱來選擇任務啟動並執行計算資源。
串連配置
連通狀態
在串連配置地區,請選擇DataWorks用於運行Lindorm任務的Serverless資源群組,並單擊測試連通性以確保資源群組可以正常訪問您的Lindorm執行個體。詳情請參見網路連通方案概述。
單擊確認,完成Lindorm計算資源配置。
(可選)配置Spark全域參數
在DataWorks中,您可以按工作空間粒度為各模組指定SPARK參數,之後這些模組將預設使用相應的SPARK參數執行任務。您可參考設定全域Spark參數來自訂全域的SPARK參數,並設定全域參數的優先順序是否高於特定模組(如資料開發、資料分析和營運中心)內的局部參數。以下將為您介紹如何設定全域SPARK參數。
背景資訊
Apache Spark是一個用於大規模資料分析的引擎。在DataWorks中,您可以按以下方式配置調度節點運行時使用的SPARK參數:
方式一:您可以配置全域SPARK參數,以設定工作空間層級下某個DataWorks功能模組在運行EMR任務時所使用的SPARK參數。同時,您可以定義這些全域配置的SPARK參數優先順序是否高於特定模組內配置的SPARK參數。詳情請參見配置SPARK全域參數。
方式二:在資料開發模組中,您可以在節點編輯頁面為單個節點任務設定具體的SPARK屬性。其他產品模組目前暫不支援在模組內單獨設定SPARK屬性。
許可權控制
僅以下角色可配置全域SPARK參數:
阿里雲主帳號。
擁有
AliyunDataWorksFullAccess許可權的子帳號(RAM使用者)或RAM角色。擁有空間管理員角色的子帳號(RAM使用者)。
查看SPARK全域參數
進入計算資源清單頁,找到您所綁定的Lindorm計算資源。
單擊SPARK參數,進入SPARK參數配置欄,即可查看SPARK全域參數配置資訊。
配置SPARK全域參數
您可通過以下步驟配置SPARK全域參數。配置Lindorm計算資源的SPARK參數,詳情請參見作業配置說明。
進入計算資源清單頁,找到您所綁定的Lindorm計算資源。
單擊SPARK參數,進入SPARK參數配置欄,即可查看SPARK全域參數配置資訊。
設定全域SPARK參數。
單擊SPARK參數頁面右上方的編輯SPARK參數,配置各模組的全域SPARK參數及優先順序。
說明該配置為工作空間全域配置,請在配置前確認所使用的工作空間是否正確。
參數
步驟
Spark屬性
配置各模組運行Lindorm任務時使用的Spark屬性。可參見作業配置說明。
單擊下方的添加按鈕,輸入Spark屬性名稱和對應的Spark屬性值。
說明如需開啟血緣和產出資訊的採集,您可進行以下配置:
輸入Spark屬性名稱為
spark.sql.queryExecutionListeners。Spark屬性值為
com.aliyun.dataworks.meta.lineage.LineageListener。
更多Spark屬性參數設定,請參見作業配置說明。
全域配置是否優先
勾選後,表示全域配置將比產品模組內配置優先生效。此時將按照全域配置的SPARK屬性來統一運行任務。
全域配置:表示在對應的Lindorm計算資源的SPARK參數頁面配置的Spark屬性。
目前僅支援對資料開發(Data Studio)、營運中心模組設定全域SPARK參數。
產品模組內配置:
資料開發(Data Studio):對於Lindorm Spark、Lindorm Spark SQL節點,可在節點編輯頁面的配置項或節點編輯頁面,設定單個節點任務的SPARK屬性。
其他產品模組:暫不支援在模組內單獨設定SPARK屬性。
單擊確認按鈕,儲存您所配置的全域SPARK參數。
後續操作
配置完Lindorm計算資源後,您可以在資料開發節點任務中使用該計算資源進行節點任務開發,詳情請參見Lindorm Spark節點、Lindorm Spark SQL節點。
在配置SPARK全域參數時,請開啟Lindorm血緣和產出資訊的採集功能。建立並運行中繼資料採集器後,您可以通過資料地圖查看和管理Lindorm資料地圖查看和管理Lindorm的中繼資料資訊。