全部產品
Search
文件中心

DataWorks:準備環境

更新時間:Jun 28, 2025

本教程以使用者畫像為例,在華東2(上海)地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的EMR Serverless StarRocks叢集、DataWorks工作空間,並進行相關的環境配置。

OSS 環境準備

本案例將使用自訂函數,註冊函數所用資源將上傳至OSS,請您確保已開通OSS服務建立OSS Bucket

EMR Serverless StarRocks 環境準備

本案例採用EMR Serverless StarRocks進行案例,請確保您已擁有StarRocks執行個體,若您沒有StarRocks執行個體,可前往阿里雲免費試用頁面查看是否有試用資格,或直接購買執行個體,購買詳情請參見E-MapReduce Serverless StarRocks 版購買頁面

  • 執行個體類型:存算一體。

  • 地區:華東2(上海)地區。

  • 執行個體系列:入門版。

    重要

    該版本僅用於體驗和功能測試,不承諾SLA,您可以根據需要選擇標準版。

  • 版本:3.1。

本案例將在資料庫user_behavior_analysis中進行,所以在EMR Serverless StarRocks執行個體建立成功後,需要建立資料庫user_behavior_analysis,可登入EMR Serverless StarRocks 執行個體的SQL Editor中執行以下SQL建立資料庫。

CREATE DATABASE user_behavior_analysis;

DataWorks環境準備

在DataWorks上開發前需要已開通DataWorks服務,詳情請參見DataWorks準備工作

一、建立工作空間

  1. 登入DataWorks控制台,在左上方切換地區至擁有DataWorks服務地區。

  2. 單擊左側導覽列中的工作空間列表,進入空間列表頁面,單擊建立工作空間,即可建立工作空間,詳情請參見建立工作空間

說明
  • 如果已有工作空間,也可以忽略該步驟,使用已有工作空間。

  • 本案例提供的MySQL資料來源和HttpFile所處地區在華東2(上海)地區,故本案例採用華東2(上海)地區。

二、建立資源群組

  1. 新購資源群組:在DataWorks上運行StarRocks任務需使用資源群組。關於資源群組的購買,詳情請參見新增和使用Serverless資源群組

  2. 網路連通:確保資源群組與StarRocks的網路連通,網路連通方案,詳情請參見網路連通方案

    • 確認StarRocks網路環境image

    • 為DataWorks綁定相同VPC網路image

    • StarRocks添加白名單允許DataWorks Serverless資源群組訪問。

      1. 擷取DataWorks Serverless資源群組出口IP。image

      2. 單擊StarRocks執行個體名,進入範例詳情內在基礎資訊頁面中,單擊內網白名單添加DataWorks Serverless資源群組的交換器網段IP。image

    • 為資源群組配置公網訪問能力。

      1. 登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換至華東2(上海)地區。

      2. 單擊建立NAT Gateway。配置相關參數。

        參數

        取值

        所屬地區

        華東2(上海)。

        所屬專用網路

        選擇資源群組綁定的VPC和交換器。

        您可以前往DataWorks管理主控台,切換地區後,在左側導覽列單擊資源群組列表,找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定的專用網路交換器。VPC和交換器的更多資訊,請參見什麼是專用網路

        關聯交換器

        訪問模式

        VPC全通模式(SNAT)。

        Elastic IP Address

        新購Elastic IP Address。

        關聯角色建立

        首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色

        說明

        上表中未說明的參數保持預設值即可。

      3. 單擊立即購買,勾選服務合約後,單擊確認訂單,完成購買。

三、建立StarRocks資料來源

DataWorks控制台導覽列左側單擊管理中心,然後在下拉框內選擇目標空間單擊進入管理中心。在管理中心中單擊資料來源 > 資料來源列表頁面,單擊新增資料來源,選擇StarRocks,建立StarRocks資料來源,將StarRocks執行個體通過阿里雲執行個體模式建立資料來源的方式添加至DataWorks當前空間。

image

  1. StarRocks資料來源基本資料配置。

    您需要前往EMR控制台,在 DataWorks 中根據您執行個體詳情內的資訊,配置StarRocks 資料來源的基礎資訊,以便後續進行任務同步及加工。以下是配置項的詳細資料。

    配置項

    配置內容

    資料來源名稱

    配置資料來源名稱,本案例命名為:Doc_StarRocks_Storage_Compute_Tightly_01

    資料來源描述

    對該資料來源進行文字補充描述。

    配置模式

    阿里雲執行個體模式

    地區

    華東 2-上海

    執行個體

    選擇Serverless版的相應執行個體。

    資料庫名稱

    配置StarRocks內資料庫名,本案例為:user_behavior_analysis,本案例的所有資料操作都將在該資料庫下執行。

    使用者名稱

    StarRocks資料庫帳號。

    密碼

    StarRocks資料庫密碼。

  2. 測試資源連通性:連通性驗證通過後,單擊完成編輯,StarRocks資料來源即可成功建立。

四、建立MySQL資料來源

  1. 管理中心頁面,單擊進入資料來源頁面後單擊新增資料來源

  2. 新增資料來源對話方塊中,搜尋選擇資料來源類型為MySQL

  3. 建立MySQL資料來源頁面,配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。

    參數

    描述

    資料來源名稱

    輸入資料來源名稱,本教程請填寫user_behavior_analysis_mysql

    資料來源描述

    輸入DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境讀取,其他模組不支援使用。

    配置模式

    選擇串連串模式

    串連地址

    • 主機地址IP:rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com

    • 連接埠號碼:3306

    資料庫名稱

    輸入資料庫名,本教程請填寫workshop·

    使用者名稱

    輸入使用者名稱,本教程請填寫workshop

    密碼

    輸入密碼,本教程請填寫workshop#2017

    認證選項

    無認證。

  4. 單擊指定的資源群組連通狀態(開發環境)連通狀態(生產環境)列的測試連通性,等待介面提示測試完成,連通狀態為可連通

  5. 單擊完成建立

五、建立HttpFile資料來源

進入管理中心 > 資料來源 > 資料來源列表頁面,單擊新增資料來源,選擇HttpFile建立HttpFile資料來源,將HttpFile資料來源添加至DataWorks當前空間。

image

  1. HttpFile資料來源基礎資訊配置。

    建立HttpFile資料來源,基礎資訊配置說明如下。

    配置項

    描述

    資料來源名稱

    請輸入HttpFile公用資料來源在您空間下的顯示名稱,本教程資料來源命名為user_behavior_analysis_httpfile

    資料來源描述

    對資料來源進行簡單描述。

    本資料來源為DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境中的讀取,其他模組不支援使用。

    URL網域名稱

    輸入https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com

  2. 測試資源連通性:連通性通過之後,只需單擊完成編輯,HttpFile資料來源即可成功建立。

後續步驟

現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將使用者基本資料資料、使用者網站訪問日誌資料同步至StarRocks中。詳情請參見同步資料