DataWorks支援StarRocks資料來源,通過資料來源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的Data Integration、開發、分析、資料服務等功能。本文為您介紹EMR Serverless StarRocks在DataWorks上的操作流程。
背景資訊
瞭解EMR Serverless StarRocks
StarRocks是新一代極速全情境MPP(Massively Parallel Processing)資料庫,致力於構建極速和統一分析體驗。
EMR Serverless StarRocks是開源StarRocks在阿里雲上的全託管服務,您可以通過EMR Serverless StarRocks靈活建立和管理StarRocks執行個體以及資料。StarRocks作為一款相容MySQL協議的OLAP分析引擎,提供了極致的效能和豐富的OLAP情境模型,包括OLAP多維分析、資料湖分析、高並發查詢以及即時資料分析。
-
使用新版數據開發(Data Studio)的工作空間可通過綁定EMR Serverless StarRocks計算資源產生同名資料來源,無需通過本文操作建立資料來源。
-
未使用新版數據開發(Data Studio)的工作空間,需參考本文通過建立StarRocks資料來源的方式,在DataWorks中使用StarRocks進行開發。
瞭解DataWorks on EMR Serverless StarRocks
DataWorks作為阿里雲一站式巨量資料開發治理平台,通過資料來源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的Data Integration、作業周期性調度,同時結合StarRocks引擎在資料分析和資料服務上的極速表現,全面助力StarRocks在各類業務情境上的使用。
前提條件
-
已開通DataWorks並建立工作空間。操作詳情請參見開通DataWorks服務。
-
已購買資源群組並完成資源群組的空間綁定、網路等配置。詳情請參見資源群組管理。
-
已建立EMR Serverless StarRocks執行個體,操作詳情請參見快速使用存算一體版執行個體。
說明建立完成StarRocks執行個體後,您可以通過在EMR控制台查看執行個體資訊,並通過EMR StarRocks Manager串連執行個體查看資料庫、表等資訊。
-
已將DataWorks資源群組的白名單IP地址添加至EMR Serverless StarRocks執行個體的白名單中。
添加EMR Serverless StarRocks執行個體白名單的操作入口如下。
在 EMR Serverless StarRocks 執行個體的執行個體詳情頁面,安全性群組 ID右側單擊內網白名單可配置內網白名單;在FE 詳情地區的公網地址右側單擊公網白名單可配置公網白名單。
建立資料來源
在DataWorks上使用EMR Serverless StarRocks時,您需要先建立StarRocks類型的資料來源,對接已建立的EMR Serverless StarRocks資料庫,以便後續在DataWorks的各個子模組中使用EMR Serverless StarRocks。
-
使用新版數據開發(Data Studio)的工作空間可通過綁定EMR Serverless StarRocks計算資源產生同名資料來源,無需通過當前操作建立資料來源。
-
未使用新版數據開發(Data Studio)的工作空間,需參考本文通過建立StarRocks資料來源的方式,在DataWorks中使用StarRocks進行開發。
資料來源介紹詳情請參見StarRocks資料來源,資料來源的建立入口及配置要點如下。
-
進入資料來源頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。
-
單擊新增數據源,資料來源配置要點如下,其他參數可保持預設值。
根據StarRocks執行個體與DataWorks資源群組的網路連通情況,選擇對應的方式建立資料來源。具體網路連通方案,請參見網路連通方案概述。
內網連通
關鍵參數
說明
配置模式
選擇阿里雲數據庫(RDS)。
所屬雲賬號
-
如果EMR Serverless StarRocks執行個體與DataWorks屬於同一帳號,則選擇當前阿里雲主賬號。
-
如果EMR Serverless StarRocks執行個體屬於其他阿里雲帳號,則選擇其他阿里雲主賬號,選擇其他阿里雲主賬號後,還需配置對方阿里雲主賬號UID和對方RAM角色,對方RAM角色配置的更多資訊,請參見跨帳號授權(RDS、Hive或Kafka)。
地域
選擇EMR Serverless StarRocks執行個體所在的地區。
實例
選擇具體Serverless版的StarRocks執行個體。
數據庫名稱
待串連使用的資料庫名稱。您可以通過EMR StarRocks Manager串連執行個體後,在中繼資料管理中查看。
用戶名/密碼
執行個體的使用者名稱和密碼。
建立StarRocks執行個體預設建立一個admin使用者,密碼為建立執行個體時自訂的密碼。
連接配置
您需要測試資料來源與購買的資源群組的連通性,連通狀態為可連通表明資料來源與資源群組間網路是連通的。
公網連通
關鍵參數
說明
配置模式
選擇有公網IP。
主機地址/IP
EMR Serverless StarRocks執行個體中FE的公网地址。
公網地址格式為
fe-c-<執行個體標識>.starrocks.aliyuncs.com,HTTP 連接埠為8030。可單擊公網白名單配置訪問白名單,或單擊關閉公網停用公網訪問。連接埠
EMR Serverless StarRocks執行個體中FE的查詢連接埠(預設為9030)。
Load URL
StarRocks FE的地址用於Streamload,可以為多個FE地址,形如
FE公網地址:FE的HTTP連接埠,使用逗號分割。數據庫名稱
待串連使用的資料庫名稱。您可以通過EMR StarRocks Manager串連執行個體後,在中繼資料管理中查看。
用戶名/密碼
執行個體的使用者名稱和密碼。
建立StarRocks執行個體預設建立一個admin使用者,密碼為建立執行個體時自訂的密碼。
連接配置
您需要測試資料來源與購買的資源群組的連通性,連通狀態為可連通表明資料來源與資源群組間網路是連通的。
-
Data Integration
DataWorks支援同步多種資料來源的資料至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以離線同步一個MySQL資料至EMR Serverless StarRocks表中為例,為您介紹操作要點。
StarRocks資料來源同步任務的更多配置細節,請參見StarRocks資料來源。
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
-
建立離線同步節點,設定資料來源為MySQL,資料去向為StarRocks資料來源。
在左側導航樹中展開Data Integration,單擊建立節點 > 離線同步。在網路與資源配置步驟中,選擇資源群組並分別單擊測試連通性,確認資料來源和資料去向均顯示可連通。
-
選擇資源群組後,並分別測試與來來源資料源、去向資料來源的連通性。
-
設定調度周期,提交發布節點後周期執行任務。
完成調試後,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設定任務使用的資源群組,完成後單擊提交、发布按鈕。
資料開發與調度營運
對於需要周期調度的EMR Serverless StarRocks任務,您可以在DataStudio模組中建立StarRocks節點,選擇已經串連到的StarRocks資料來源,即可編寫EMR Serverless StarRocks SQL任務,並設定調度周期來周期執行。操作步驟要點如下:
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
-
在DataStudio中建立StarRocks節點,選擇已經串連到的StarRocks的資料來源,即可編寫EMR Serverless StarRocks SQL任務。
具體操作為:按右鍵商務程序中的資料庫節點,選擇建立節點 > StarRocks,在開啟的 SQL 編輯器中選擇對應資料來源並編寫 SQL,例如
SELECT * FROM testdb.testtb;。 -
在DataStudio調試EMR Serverless StarRocks SQL任務時,您需要選中待調試的SQL命令並單擊運行按鈕,選中資源群組後進行調試。
-
設定調度周期,提交發布節點後周期執行任務。
完成調試後,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設定任務使用的資源群組,完成後單擊提交、发布按鈕。
資料分析
您可以使用DataWorks的資料分析子模組,對EMR Serverless StarRocks表資料進行快速分析,操作要點如下。
進入SQL查詢頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,單擊進入資料分析頁面,單擊左側導覽列的SQL查詢進入SQL查詢頁面。
-
單擊左邊側邊欄的
表徵圖,單擊,進入系統管理頁面,設定StarRocks類的查詢資源群組為任務使用的資源群組。在 SQL查詢 的 資源群組 配置地區中,StarRocks 引擎預設使用 公用調度資源群組,將其修改為目標資源群組後單擊 儲存。
-
回到SQL查詢頁面,在右上方切換引擎類型為StarRocks,並選擇資料來源,即可編輯查詢語句並運行,進行EMR Serverless StarRocks資料分析。
在右側配置面板中,還需選擇工作空間,然後單擊確定。
資料服務
資料服務支援產生StarRocks資料來源類型的API。
進入資料服務頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料服務。
-
產生一個API,並配置API參數。
資料服務支援嚮導模式和指令碼模式兩種編輯情境,指令碼模式支援根據查詢SQL語句自動產生API的請求參數和返回參數。以下以嚮導模式為例為您樣本操作要點。
在左側導航樹中,展開目標商務程序下的API節點,右鍵選擇建立API > 產生API,進入嚮導模式配置頁面。
選擇資料來源類型為StarRocks,選擇建立的StarRocks資料來源後,選擇對應的表,根據介面選擇API的請求參數、返回參數等API配置。
-
單擊右邊側邊欄的服務資源群組,配置資源群組為獨享資料服務資源群組。
在獨享服務資源群組下拉框中選擇目標資源群組(如test),並配置API Gateway執行個體類型為共用執行個體、逾時時間為
30000ms、單次請求資料條數上限為10000條。 -
測試API成功後,提交並發布API。
資料地圖
資料地圖模組支援對StarRocks資料的中繼資料採集、搜尋和表詳情頁。
中繼資料採集
進入資料地圖頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入數據地圖。
-
在左側導覽列單擊
表徵圖,然後單擊StarRocks模組右上方的管理按鈕。 -
切換至未採集列表頁簽,在操作列單擊元數據採集。
-
配置資源組名稱、測試連通性通過並設定採集計劃後,單擊確認,完成中繼資料採集配置。
說明-
中繼資料採集的更多資訊,請參見中繼資料採集。
-
僅支援Serverless資源群組運行該任務。
-
搜尋
進入資料地圖頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入數據地圖。
-
在左側導覽列單擊
表徵圖,資料來源選擇StarRocks,然後即可在頂部根據不同類型資料來源搜尋表。說明搜尋的更多資訊,請參見中繼資料檢索。
表詳情
進入資料地圖頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入數據地圖。
-
在資料地圖首頁或搜尋中找到目標表後,單擊表名,進入表詳情頁。
-
在表詳情頁即可查看錶基礎信息、技術資訊、業務信息、明細信息、產出信息及血缘信息等。
表詳情頁還包含 使用說明 Tab。明細資訊 下設 欄位資訊 和 變更記錄 兩個二級 Tab,其中 欄位資訊 表格展示各欄位的名稱、資料類型及描述。