本教程以使用者畫像為例,在華東2(上海)地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的EMR Serverless StarRocks叢集、DataWorks工作空間,並進行相關的環境配置。
OSS 環境準備
本案例將使用自訂函數,註冊函數所用資源將上傳至OSS,請您確保已開通OSS服務並建立OSS Bucket。
EMR Serverless StarRocks 環境準備
本案例採用EMR Serverless StarRocks進行案例,請確保您已擁有StarRocks執行個體,若您沒有StarRocks執行個體,可前往阿里雲免費試用頁面查看是否有試用資格,或直接購買執行個體,購買詳情請參見E-MapReduce Serverless StarRocks 版購買頁面。
執行個體類型:存算一體。
地區:華東2(上海)地區。
執行個體系列:入門版。
重要該版本僅用於體驗和功能測試,不承諾SLA,您可以根據需要選擇標準版。
版本:3.1。
本案例將在資料庫user_behavior_analysis中進行,所以在EMR Serverless StarRocks執行個體建立成功後,需要建立資料庫user_behavior_analysis,可登入EMR Serverless StarRocks 執行個體的SQL Editor中執行以下SQL建立資料庫。
CREATE DATABASE user_behavior_analysis;DataWorks環境準備
在DataWorks上開發前需要已開通DataWorks服務,詳情請參見DataWorks準備工作。
一、建立工作空間
登入DataWorks控制台,在左上方切換地區至擁有DataWorks服務地區。
單擊左側導覽列中的工作空間列表,進入空間列表頁面,單擊建立工作空間,即可建立工作空間,詳情請參見建立工作空間。
如果已有工作空間,也可以忽略該步驟,使用已有工作空間。
本案例提供的MySQL資料來源和HttpFile所處地區在華東2(上海)地區,故本案例採用華東2(上海)地區。
二、建立資源群組
新購資源群組:在DataWorks上運行StarRocks任務需使用資源群組。關於資源群組的購買,詳情請參見新增和使用Serverless資源群組。
網路連通:確保資源群組與StarRocks的網路連通,網路連通方案,詳情請參見網路連通方案。
確認StarRocks網路環境

為DataWorks綁定相同VPC網路。

StarRocks添加白名單允許DataWorks Serverless資源群組訪問。
擷取DataWorks Serverless資源群組出口IP。

單擊StarRocks執行個體名,進入範例詳情內在基礎資訊頁面中,單擊內網白名單添加DataWorks Serverless資源群組的交換器網段IP。

為資源群組配置公網訪問能力。
登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換至華東2(上海)地區。
單擊建立NAT Gateway。配置相關參數。
參數
取值
所屬地區
華東2(上海)。
所屬專用網路
選擇資源群組綁定的VPC和交換器。
您可以前往DataWorks管理主控台,切換地區後,在左側導覽列單擊資源群組列表,找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定的專用網路和交換器。VPC和交換器的更多資訊,請參見什麼是專用網路。
關聯交換器
訪問模式
VPC全通模式(SNAT)。
Elastic IP Address
新購Elastic IP Address。
關聯角色建立
首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色。
說明上表中未說明的參數保持預設值即可。
單擊立即購買,勾選服務合約後,單擊確認訂單,完成購買。
三、建立StarRocks資料來源
在DataWorks控制台導覽列左側單擊管理中心,然後在下拉框內選擇目標空間單擊進入管理中心。在管理中心中單擊頁面,單擊新增資料來源,選擇StarRocks,建立StarRocks資料來源,將StarRocks執行個體通過阿里雲執行個體模式建立資料來源的方式添加至DataWorks當前空間。

StarRocks資料來源基本資料配置。
您需要前往EMR控制台,在 DataWorks 中根據您執行個體詳情內的資訊,配置StarRocks 資料來源的基礎資訊,以便後續進行任務同步及加工。以下是配置項的詳細資料。
配置項
配置內容
資料來源名稱
配置資料來源名稱,本案例命名為:
Doc_StarRocks_Storage_Compute_Tightly_01。資料來源描述
對該資料來源進行文字補充描述。
配置模式
阿里雲執行個體模式。
地區
華東 2-上海
執行個體
選擇Serverless版的相應執行個體。
資料庫名稱
配置StarRocks內資料庫名,本案例為:
user_behavior_analysis,本案例的所有資料操作都將在該資料庫下執行。使用者名稱
StarRocks資料庫帳號。
密碼
StarRocks資料庫密碼。
測試資源連通性:連通性驗證通過後,單擊完成編輯,StarRocks資料來源即可成功建立。
四、建立MySQL資料來源
在管理中心頁面,單擊進入資料來源頁面後單擊新增資料來源。
在新增資料來源對話方塊中,搜尋選擇資料來源類型為MySQL。
在建立MySQL資料來源頁面,配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。
參數
描述
資料來源名稱
輸入資料來源名稱,本教程請填寫user_behavior_analysis_mysql。
資料來源描述
輸入DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境讀取,其他模組不支援使用。
配置模式
選擇串連串模式。
串連地址
主機地址IP:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com連接埠號碼:
3306
資料庫名稱
輸入資料庫名,本教程請填寫
workshop·使用者名稱
輸入使用者名稱,本教程請填寫workshop。
密碼
輸入密碼,本教程請填寫workshop#2017。
認證選項
無認證。
單擊指定的資源群組連通狀態(開發環境)和連通狀態(生產環境)列的測試連通性,等待介面提示測試完成,連通狀態為可連通。
單擊完成建立。
五、建立HttpFile資料來源
進入頁面,單擊新增資料來源,選擇HttpFile,建立HttpFile資料來源,將HttpFile資料來源添加至DataWorks當前空間。

HttpFile資料來源基礎資訊配置。
建立HttpFile資料來源,基礎資訊配置說明如下。
配置項
描述
資料來源名稱
請輸入HttpFile公用資料來源在您空間下的顯示名稱,本教程資料來源命名為user_behavior_analysis_httpfile。
資料來源描述
對資料來源進行簡單描述。
本資料來源為DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境中的讀取,其他模組不支援使用。
URL網域名稱
輸入
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com。測試資源連通性:連通性通過之後,只需單擊完成編輯,HttpFile資料來源即可成功建立。
後續步驟
現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將使用者基本資料資料、使用者網站訪問日誌資料同步至StarRocks中。詳情請參見同步資料。