DataWorks支援StarRocks資料來源,通過資料來源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的Data Integration、開發、分析、資料服務等功能。本文為您介紹EMR Serverless StarRocks在DataWorks上的操作流程。
背景資訊
瞭解EMR Serverless StarRocks
StarRocks是新一代極速全情境MPP(Massively Parallel Processing)資料庫,致力於構建極速和統一分析體驗。
EMR Serverless StarRocks是開源StarRocks在阿里雲上的全託管服務,您可以通過EMR Serverless StarRocks靈活建立和管理StarRocks執行個體以及資料。StarRocks作為一款相容MySQL協議的OLAP分析引擎,提供了極致的效能和豐富的OLAP情境模型,包括OLAP多維分析、資料湖分析、高並發查詢以及即時資料分析。
使用新版資料開發(Data Studio)的工作空間可通過綁定EMR Serverless StarRocks計算資源產生同名資料來源,無需通過本文操作建立資料來源。
未使用新版資料開發(Data Studio)的工作空間,需參考本文通過建立StarRocks資料來源的方式,在DataWorks中使用StarRocks進行開發。
瞭解DataWorks on EMR Serverless StarRocks
DataWorks作為阿里雲一站式巨量資料開發治理平台,通過資料來源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的Data Integration、作業周期性調度,同時結合StarRocks引擎在資料分析和資料服務上的極速表現,全面助力StarRocks在各類業務情境上的使用。
前提條件
已開通DataWorks並建立工作空間。操作詳情請參見開通DataWorks服務。
已購買資源群組並完成資源群組的空間綁定、網路等配置。詳情請參見資源群組管理。
已建立EMR Serverless StarRocks執行個體,操作詳情請參見快速使用存算一體版執行個體。
說明建立完成StarRocks執行個體後,您可以通過在EMR控制台查看執行個體資訊,並通過EMR StarRocks Manager串連執行個體查看資料庫、表等資訊。
已將DataWorks資源群組的白名單IP地址添加至EMR Serverless StarRocks執行個體的白名單中。
添加EMR Serverless StarRocks執行個體白名單的操作入口如下。

建立資料來源
在DataWorks上使用EMR Serverless StarRocks時,您需要先建立StarRocks類型的資料來源,對接已建立的EMR Serverless StarRocks資料庫,以便後續在DataWorks的各個子模組中使用EMR Serverless StarRocks。
使用新版資料開發(Data Studio)的工作空間可通過綁定EMR Serverless StarRocks計算資源產生同名資料來源,無需通過當前操作建立資料來源。
未使用新版資料開發(Data Studio)的工作空間,需參考本文通過建立StarRocks資料來源的方式,在DataWorks中使用StarRocks進行開發。
資料來源介紹詳情請參見StarRocks資料來源,資料來源的建立入口及配置要點如下。
進入資料來源頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。
單擊新增資料來源,資料來源配置要點如下,其他參數可保持預設值。
根據StarRocks執行個體與DataWorks資源群組的網路連通情況,選擇對應的方式建立資料來源。具體網路連通方案,請參見網路連通方案概述。
內網連通
關鍵參數
說明
配置模式
選擇阿里雲執行個體模式。
所屬雲帳號
如果EMR Serverless StarRocks執行個體與DataWorks屬於同一帳號,則選擇當前阿里雲主帳號。
如果EMR Serverless StarRocks執行個體屬於其他阿里雲帳號,則選擇其他阿里雲主帳號,選擇其他阿里雲主帳號後,還需配置對方阿里雲主帳號UID和對方RAM角色,對方RAM角色配置的更多資訊,請參見跨帳號授權(RDS、Hive或Kafka)。
地區
選擇EMR Serverless StarRocks執行個體所在的地區。
執行個體
選擇具體Serverless版的StarRocks執行個體。
資料庫名稱
待串連使用的資料庫名稱。您可以通過EMR StarRocks Manager串連執行個體後,在中繼資料管理中查看。
使用者名稱/密碼
執行個體的使用者名稱和密碼。
建立StarRocks執行個體預設建立一個admin使用者,密碼為建立執行個體時自訂的密碼。
串連配置
您需要測試資料來源與購買的資源群組的連通性,連通狀態為可連通表明資料來源與資源群組間網路是連通的。
公網連通
關鍵參數
說明
配置模式
選擇串連串模式。
主機地址/IP
EMR Serverless StarRocks執行個體中FE的公網地址。

連接埠
EMR Serverless StarRocks執行個體中FE的查詢連接埠(預設為9030)。
Load URL
StarRocks FE的地址用於Streamload,可以為多個FE地址,形如
FE公網地址:FE的HTTP連接埠,使用逗號分割。資料庫名稱
待串連使用的資料庫名稱。您可以通過EMR StarRocks Manager串連執行個體後,在中繼資料管理中查看。
使用者名稱/密碼
執行個體的使用者名稱和密碼。
建立StarRocks執行個體預設建立一個admin使用者,密碼為建立執行個體時自訂的密碼。
串連配置
您需要測試資料來源與購買的資源群組的連通性,連通狀態為可連通表明資料來源與資源群組間網路是連通的。
Data Integration
DataWorks支援同步多種資料來源的資料至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以離線同步一個MySQL資料至EMR Serverless StarRocks表中為例,為您介紹操作要點。
StarRocks資料來源同步任務的更多配置細節,請參見StarRocks資料來源。
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
建立離線同步節點,設定資料來源為MySQL,資料去向為StarRocks資料來源。

選擇資源群組後,並分別測試與來來源資料源、去向資料來源的連通性。
設定調度周期,提交發布節點後周期執行任務。
完成調試後,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設定任務使用的資源群組,完成後單擊提交、發布按鈕。
資料開發與調度營運
對於需要周期調度的EMR Serverless StarRocks任務,您可以在DataStudio模組中建立StarRocks節點,選擇已經串連到的StarRocks資料來源,即可編寫EMR Serverless StarRocks SQL任務,並設定調度周期來周期執行。操作步驟要點如下:
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
在DataStudio中建立StarRocks節點,選擇已經串連到的StarRocks的資料來源,即可編寫EMR Serverless StarRocks SQL任務。

在DataStudio調試EMR Serverless StarRocks SQL任務時,您需要選中待調試的SQL命令並單擊運行按鈕,選中資源群組後進行調試。
設定調度周期,提交發布節點後周期執行任務。
完成調試後,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設定任務使用的資源群組,完成後單擊提交、發布按鈕。
資料分析
您可以使用DataWorks的資料分析子模組,對EMR Serverless StarRocks表資料進行快速分析,操作要點如下。
進入SQL查詢頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,單擊進入資料分析頁面,單擊左側導覽列的SQL查詢進入SQL查詢頁面。
單擊左邊側邊欄的
表徵圖,單擊,進入系統管理頁面,設定StarRocks類的查詢資源群組為任務使用的資源群組。
回到SQL查詢頁面,在右上方切換引擎類型為StarRocks,並選擇資料來源,即可編輯查詢語句並運行,進行EMR Serverless StarRocks資料分析。

資料服務
資料服務支援產生StarRocks資料來源類型的API。
進入資料服務頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料服務。
產生一個API,並配置API參數。
資料服務支援嚮導模式和指令碼模式兩種編輯情境,指令碼模式支援根據查詢SQL語句自動產生API的請求參數和返回參數。以下以嚮導模式為例為您樣本操作要點。

選擇資料來源類型為StarRocks,選擇建立的StarRocks資料來源後,選擇對應的表,根據介面選擇API的請求參數、返回參數等API配置。
單擊右邊側邊欄的服務資源群組,配置資源群組為獨享資料服務資源群組。

測試API成功後,提交並發布API。
資料地圖
資料地圖模組支援對StarRocks資料的中繼資料採集、搜尋和表詳情頁。
中繼資料採集
進入資料地圖頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資料地圖。
在左側導覽列單擊
表徵圖,然後單擊StarRocks模組右上方的管理按鈕。切換至未採集列表頁簽,在操作列單擊中繼資料採集。
配置資源群組名稱、測試連通性通過並設定採集計劃後,單擊確認,完成中繼資料採集配置。
說明中繼資料採集的更多資訊,請參見中繼資料採集。
僅支援Serverless資源群組運行該任務。
搜尋
進入資料地圖頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資料地圖。
在左側導覽列單擊
表徵圖,資料來源選擇StarRocks,然後即可在頂部根據不同類型資料來源搜尋表。說明搜尋的更多資訊,請參見通用資料查詢與管理。

表詳情
進入資料地圖頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資料地圖。
在資料地圖首頁或搜尋中找到目標表後,單擊表名,進入表詳情頁。
在表詳情頁即可查看表基礎資訊、技術資訊、商務資訊、明細資訊、產出資訊及血緣資訊等。
