本教程以使用者畫像為例,在華東2(上海)地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的EMR Serverless StarRocks叢集、DataWorks工作空間,並進行相關的環境配置。
業務背景
為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體的地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作。
操作前須知
為了順利進行教程操作,請您務必閱讀實驗介紹,充分瞭解使用者Portrait analysis案例整體流程。
注意事項
本教程提供教程所需使用者資訊資料與網站訪問測試資料,您可直接使用。
本教程提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用,所有資料均為人工Mock資料。
本教程使用資料開發(Data Studio)(新版)進行資料加工。
OSSObject Storage Service環境準備
本案例將使用自訂函數,註冊函數所用資源將上傳至OSS,請您確保已開通OSS服務並建立OSS Bucket,以及確保函數所用資源讀寫權限為公開。
EMR Serverless StarRocks環境準備
本案例採用EMR Serverless StarRocks進行案例,請確保您已擁有StarRocks執行個體,若您沒有StarRocks執行個體,請建立執行個體。
執行個體類型:存算一體。
地區:華東2(上海)地區。
執行個體系列:入門版。
重要該版本僅用於體驗和功能測試,不承諾SLA,您可以根據需要選擇標準版。
版本:3.1。
本案例將在EMR Serverless StarRocks的資料庫中進行,所以在EMR Serverless StarRocks執行個體建立成功後,需要建立資料庫,可登入EMR Serverless StarRocks 執行個體SQL Editor中執行以下SQL建立資料庫。
CREATE DATABASE 資料庫名;DataWorks環境準備
使用DataWorks開發前,請確保已開通DataWorks服務,詳情請參見開通DataWorks服務。
一、建立工作空間
如果在華東2(上海)地區已有(新版)工作空間,可以忽略該步驟,使用已有工作空間。
登入DataWorks控制台,在頂部切換地區至華東2(上海),單擊左側導覽列中的工作空間,進入空間列表頁面。
單擊建立工作空間,建立參加資料開發(Data Studio)(新版)公測的標準模式空間(生產、開發環境隔離)。
說明2025年02月18日後,主帳號在華東2(上海)地區首次開通DataWorks並建立工作空間時,預設啟用新版資料開發。
更多建立工作空間的操作指導,請參見建立工作空間。
二、建立Serverless資源群組
購買Serverless資源群組。
本教程在資料同步與調度時,需要使用DataWorks的Serverless資源群組,因此您需要先購買Serverless資源群組,並完成前期的準備工作。
登入DataWorks-資源群組列表頁,在頂部切換地區至華東2(上海),單擊左側導覽列的資源群組,進入資源群組列表頁面。
單擊建立資源群組,在資源群組購買頁面,選擇地區和可用性區域為華東2(上海)、設定資源群組名稱,其他參數可根據介面提示進行配置,然後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費。
說明如當前地區沒有可用的VPC和交換器,請單擊參數說明中對應的控制台連結前往建立。VPC和交換器的更多資訊,請參見什麼是專用網路。
將資源群組綁定至DataWorks工作空間。
新購買的Serverless資源群組需要綁定至工作空間,才能在後續操作中使用。
登入DataWorks-資源群組列表頁,在頂部切換地區至華東2(上海),找到購買的Serverless資源群組,單擊操作列的綁定工作空間,然後單擊已建立的DataWorks工作空間後的綁定。
為資源群組配置公網訪問能力。
由於本教程使用的測試資料需要通過公網擷取,資源群組預設不具備公網訪問能力,因此需要為資源群組綁定的VPC配置公網NAT Gateway,添加EIP,使其與公開資料網路打通,從而擷取資料。
登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換地區至華東2(上海)。
單擊建立公網NAT Gateway,配置相關參數。以下為本樣本所需配置的關鍵參數,未說明參數保持預設即可。
參數
取值
所屬地區
華東2(上海)。
所屬專用網路
選擇資源群組綁定的VPC和交換器。
您可以前往DataWorks管理主控台,切換至華東2(上海)地區後,在左側導覽列單擊資源群組列表,找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定專用網路和交換器。VPC和交換器的更多資訊,請參見什麼是專用網路。
關聯交換器
訪問模式
專用網路全通模式(SNAT)。
Elastic IP Address執行個體
新購Elastic IP Address。
關聯角色建立
首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色。
單擊立即購買,勾選服務合約後,單擊立即開通,完成購買。
更多新增和使用Serverless資源群組的操作指導,請參見新增和使用Serverless資源群組。
三、綁定StarRocks計算資源
進入DataWorks-工作空間列表頁,在頂部切換地區至華東2(上海),找到已建立的工作空間,單擊工作空間名稱,進入空間詳情頁。
在左側導覽列單擊計算資源。
單擊綁定計算資源,選擇需要綁定的計算資源類型,然後配置相關參數。
本教程使用Serverless StarRocks作為計算和儲存資源,此處計算資源類型選擇Serverless StarRocks,配置相關參數。以下為本樣本所需配置的關鍵參數,未說明參數保持預設即可。
參數
說明
StarRocks執行個體
選擇需要綁定的StarRocks執行個體,您也可以在下拉式功能表中單擊建立,前往EMR StarRocks控制台建立,然後再回到DataWorks空間中選擇新建立的StarRocks執行個體。
說明如果在建立工作空間時選擇了隔離生產、開發環境,則此處需要分別為生產和開發環境選擇StarRocks執行個體。
如何建立StarRocks執行個體,請參見建立Serverless StarRocks執行個體。
資料庫名稱
選擇StarRocks執行個體中的資料庫。如果未建立資料庫,您需要先在StarRocks執行個體中建立資料庫。
使用者名稱
密碼
建立StarRock執行個體時設定的帳號和密碼,帳號預設為
admin。計算資源執行個體名
用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。
本案例配置為:
doc_starrocks_storage_compute_tightly_01串連配置
串連StarRocks執行個體的資源群組,可在此處測試連通性。
說明如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組。
單擊確認,完成Serverless StarRocks計算資源配置。
更多綁定計算資源的操作指導,請參見:綁定計算資源。
後續步驟
現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS,然後通過StarRocks節點建表查詢同步後的資料。詳情請參見同步資料。