全部產品
Search
文件中心

DataWorks:DataWorks on EMR Serverless StarRocks最佳實務

更新時間:Oct 29, 2025

DataWorks支援StarRocks資料來源,通過資料來源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的Data Integration、開發、分析、資料服務等功能。本文為您介紹EMR Serverless StarRocks在DataWorks上的操作流程。

背景資訊

瞭解EMR Serverless StarRocks

StarRocks是新一代極速全情境MPP(Massively Parallel Processing)資料庫,致力於構建極速和統一分析體驗。

EMR Serverless StarRocks是開源StarRocks在阿里雲上的全託管服務,您可以通過EMR Serverless StarRocks靈活建立和管理StarRocks執行個體以及資料。StarRocks作為一款相容MySQL協議的OLAP分析引擎,提供了極致的效能和豐富的OLAP情境模型,包括OLAP多維分析、資料湖分析、高並發查詢以及即時資料分析。

重要
  • 使用新版資料開發(Data Studio)的工作空間可通過綁定EMR Serverless StarRocks計算資源產生同名資料來源,無需通過本文操作建立資料來源。

  • 使用新版資料開發(Data Studio)的工作空間,需參考本文通過建立StarRocks資料來源的方式,在DataWorks中使用StarRocks進行開發。

瞭解DataWorks on EMR Serverless StarRocks

DataWorks作為阿里雲一站式巨量資料開發治理平台,通過資料來源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的Data Integration、作業周期性調度,同時結合StarRocks引擎在資料分析和資料服務上的極速表現,全面助力StarRocks在各類業務情境上的使用。

單擊查看基本概念和主要DataWorks子產品介紹

使用EMR Serverless StarRocks,涉及的主要DataWorks子產品模組、主要概念的簡單介紹如下。

基本概念/子產品

簡介

參考文檔

資源群組

您需要使用DataWorks資源群組以滿足各類任務在DataWorks上運行。

資料來源

您需要建立資料來源以便在DataWorks上使用該資料來源。使用EMR Serverless StarRocks時,您需要建立StarRocks類型的資料來源,以便可通過資料來源對接EMR Serverless StarRocks進行任務開發與運行。

資料來源介紹詳情請參見StarRocks資料來源

Data Integration

DataWorks為您提供Data Integration子模組,可實現多種資料來源間多種同步情境下的資料同步。

Data Integration模組介紹請參見Data Integration

資料開發與營運中心

DataWorks為您提供資料開發營運中心兩個子模組,可實現在資料開發中開發並調試任務,完成後將任務提交發布至營運中心,實現周期性自動運行。

資料分析

DataWorks資料分析可協助您線上洞察分析、編輯和分享資料。

資料分析

資料服務

DataWorks的資料服務功能模組是靈活輕量、安全穩定的資料API構建平台,旨在為個人、團隊與企業提供全面的資料服務與共用能力,協助使用者統一管理面向內外部的API服務。

資料服務

資料地圖

DataWorks的資料地圖是在中繼資料基礎上提供的企業資料目錄管理模組,涵蓋全域資料檢索、中繼資料詳情查看、資料預覽、資料血緣和資料類目管理等功能。資料地圖可以協助您更好地尋找、理解和使用資料。

資料地圖概述

前提條件

  • 已開通DataWorks並建立工作空間。操作詳情請參見開通DataWorks服務

  • 已購買資源群組並完成資源群組的空間綁定、網路等配置。詳情請參見資源群組管理

  • 已建立EMR Serverless StarRocks執行個體,操作詳情請參見快速使用存算一體版執行個體

    說明

    建立完成StarRocks執行個體後,您可以通過在EMR控制台查看執行個體資訊,並通過EMR StarRocks Manager串連執行個體查看資料庫、表等資訊。

  • 已將DataWorks資源群組的白名單IP地址添加至EMR Serverless StarRocks執行個體的白名單中。

    添加EMR Serverless StarRocks執行個體白名單的操作入口如下。

    image.png

建立資料來源

在DataWorks上使用EMR Serverless StarRocks時,您需要先建立StarRocks類型的資料來源,對接已建立的EMR Serverless StarRocks資料庫,以便後續在DataWorks的各個子模組中使用EMR Serverless StarRocks。

重要
  • 使用新版資料開發(Data Studio)的工作空間可通過綁定EMR Serverless StarRocks計算資源產生同名資料來源,無需通過當前操作建立資料來源。

  • 使用新版資料開發(Data Studio)的工作空間,需參考本文通過建立StarRocks資料來源的方式,在DataWorks中使用StarRocks進行開發。

資料來源介紹詳情請參見StarRocks資料來源,資料來源的建立入口及配置要點如下。

  1. 進入資料來源頁面。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。

  2. 單擊新增資料來源,資料來源配置要點如下,其他參數可保持預設值。

    根據StarRocks執行個體與DataWorks資源群組的網路連通情況,選擇對應的方式建立資料來源。具體網路連通方案,請參見網路連通方案概述

    內網連通

    關鍵參數

    說明

    配置模式

    選擇阿里雲執行個體模式

    所屬雲帳號

    • 如果EMR Serverless StarRocks執行個體與DataWorks屬於同一帳號,則選擇當前阿里雲主帳號

    • 如果EMR Serverless StarRocks執行個體屬於其他阿里雲帳號,則選擇其他阿里雲主帳號,選擇其他阿里雲主帳號後,還需配置對方阿里雲主帳號UID對方RAM角色,對方RAM角色配置的更多資訊,請參見跨帳號授權(RDS、Hive或Kafka)

    地區

    選擇EMR Serverless StarRocks執行個體所在的地區。

    執行個體

    選擇具體Serverless版的StarRocks執行個體。

    資料庫名稱

    待串連使用的資料庫名稱。您可以通過EMR StarRocks Manager串連執行個體後,在中繼資料管理中查看。

    使用者名稱/密碼

    執行個體的使用者名稱和密碼。

    建立StarRocks執行個體預設建立一個admin使用者,密碼為建立執行個體時自訂的密碼。

    串連配置

    您需要測試資料來源與購買的資源群組的連通性,連通狀態為可連通表明資料來源與資源群組間網路是連通的。

    公網連通

    關鍵參數

    說明

    配置模式

    選擇串連串模式

    主機地址/IP

    EMR Serverless StarRocks執行個體中FE的公網地址

    image

    連接埠

    EMR Serverless StarRocks執行個體中FE的查詢連接埠(預設為9030)。

    Load URL

    StarRocks FE的地址用於Streamload,可以為多個FE地址,形如FE公網地址:FE的HTTP連接埠,使用逗號分割。

    資料庫名稱

    待串連使用的資料庫名稱。您可以通過EMR StarRocks Manager串連執行個體後,在中繼資料管理中查看。

    使用者名稱/密碼

    執行個體的使用者名稱和密碼。

    建立StarRocks執行個體預設建立一個admin使用者,密碼為建立執行個體時自訂的密碼。

    串連配置

    您需要測試資料來源與購買的資源群組的連通性,連通狀態為可連通表明資料來源與資源群組間網路是連通的。

Data Integration

DataWorks支援同步多種資料來源的資料至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以離線同步一個MySQL資料至EMR Serverless StarRocks表中為例,為您介紹操作要點。

說明

StarRocks資料來源同步任務的更多配置細節,請參見StarRocks資料來源

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 建立離線同步節點,設定資料來源為MySQL,資料去向為StarRocks資料來源。

    image.png

  3. 選擇資源群組後,並分別測試與來來源資料源、去向資料來源的連通性。

  4. 設定調度周期,提交發布節點後周期執行任務。

    完成調試後,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設定任務使用的資源群組,完成後單擊提交發布按鈕。

資料開發與調度營運

對於需要周期調度的EMR Serverless StarRocks任務,您可以在DataStudio模組中建立StarRocks節點,選擇已經串連到的StarRocks資料來源,即可編寫EMR Serverless StarRocks SQL任務,並設定調度周期來周期執行。操作步驟要點如下:

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 在DataStudio中建立StarRocks節點,選擇已經串連到的StarRocks的資料來源,即可編寫EMR Serverless StarRocks SQL任務。

    image.png

  3. 在DataStudio調試EMR Serverless StarRocks SQL任務時,您需要選中待調試的SQL命令並單擊運行按鈕,選中資源群組後進行調試。

  4. 設定調度周期,提交發布節點後周期執行任務。

    完成調試後,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設定任務使用的資源群組,完成後單擊提交發布按鈕。

資料分析

您可以使用DataWorks的資料分析子模組,對EMR Serverless StarRocks表資料進行快速分析,操作要點如下。

  1. 進入SQL查詢頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料分析與服務 > 資料分析,單擊進入資料分析頁面,單擊左側導覽列的SQL查詢進入SQL查詢頁面。

  2. 單擊左邊側邊欄的image表徵圖,單擊更多 > 系統管理,進入系統管理頁面,設定StarRocks類的查詢資源群組為任務使用的資源群組。

    image.png

  3. 回到SQL查詢頁面,在右上方切換引擎類型為StarRocks,並選擇資料來源,即可編輯查詢語句並運行,進行EMR Serverless StarRocks資料分析。

    image.png

資料服務

資料服務支援產生StarRocks資料來源類型的API。

  1. 進入資料服務頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料分析與服務 > 資料服務,在下拉框中選擇對應工作空間後單擊進入資料服務

  2. 產生一個API,並配置API參數。

    資料服務支援嚮導模式和指令碼模式兩種編輯情境,指令碼模式支援根據查詢SQL語句自動產生API的請求參數和返回參數。以下以嚮導模式為例為您樣本操作要點。

    image.png

    選擇資料來源類型為StarRocks,選擇建立的StarRocks資料來源後,選擇對應的表,根據介面選擇API的請求參數、返回參數等API配置。

  3. 單擊右邊側邊欄的服務資源群組,配置資源群組為獨享資料服務資源群組。

    image.png

  4. 測試API成功後,提交並發布API。

資料地圖

資料地圖模組支援對StarRocks資料的中繼資料採集、搜尋和表詳情頁。

中繼資料採集

  1. 進入資料地圖頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,在右側頁面中單擊進入資料地圖

  2. 在左側導覽列單擊image表徵圖,然後單擊StarRocks模組右上方的管理按鈕。

  3. 切換至未採集列表頁簽,在操作列單擊中繼資料採集

  4. 配置資源群組名稱測試連通性通過並設定採集計劃後,單擊確認,完成中繼資料採集配置。

    image

    說明
    • 中繼資料採集的更多資訊,請參見中繼資料採集

    • 僅支援Serverless資源群組運行該任務。

搜尋

  1. 進入資料地圖頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,在右側頁面中單擊進入資料地圖

  2. 在左側導覽列單擊image表徵圖,資料來源選擇StarRocks,然後即可在頂部根據不同類型資料來源搜尋表。

    說明

    搜尋的更多資訊,請參見通用資料查詢與管理

    image

表詳情

  1. 進入資料地圖頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,在右側頁面中單擊進入資料地圖

  2. 在資料地圖首頁或搜尋中找到目標表後,單擊表名,進入表詳情頁。

  3. 在表詳情頁即可查看表基礎資訊技術資訊商務資訊明細資訊產出資訊血緣資訊等。

    說明
    • 表詳情的更多資訊,請參見通用資料查詢與管理

    • StarRocks Serverless叢集的3.1.13版本、3.2.9版本及以後的版本支援開啟中繼資料、血緣分析能力,具體配置方法,請參見查看血緣

    image