全部產品
Search
文件中心

DataWorks:準備環境

更新時間:Jan 23, 2026

本教程以使用者畫像為例,在華東2(上海)地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的EMR Serverless Spark空間、DataWorks工作空間,並進行相關的環境配置。

業務背景

為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體的地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作。

操作前須知

為了順利進行教程操作,請您務必閱讀實驗介紹,充分瞭解使用者Portrait analysis案例整體流程。

注意事項

  • 本教程提供教程所需使用者資訊資料與網站訪問測試資料,您可直接使用。

  • 本教程提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用,所有資料均為人工Mock資料。

  • 本教程使用資料開發(Data Studio)(新版)進行資料加工。

OSSObject Storage Service環境準備

本教程需要您建立一個OSS Bucket,後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中,用於資料建模和資料分析。

  1. 登入OSS控制台

  2. 在左側導覽列,單擊Bucket列表,在Bucket列表頁面,單擊建立Bucket

  3. 建立Bucket對話方塊中,配置各項參數,單擊完成建立配置如下:

    參數

    取值

    Bucket名稱

    本樣本命名為dw-spark-demo

    地區

    選擇華東2(上海)

    HDFS服務

    根據介面提示開啟HDFS服務開關

  4. 在Bucket列表頁單擊相應的Bucket名稱,進入Bucket的檔案管理頁面。

EMR Serverless Spark工作空間準備

本案例採用EMR Serverless Spark進行案例,請確保您已擁有Spark空間,若您沒有Spark空間,需建立工作空間。配置如下:

參數

取值

地區

華東2(上海)

付費類型

隨用隨付。

工作空間名稱

自訂名稱即可。

DLF 作為中繼資料服務

選擇需要綁定的DLF資料目錄(Catalog),如不同EMR叢集期望中繼資料完全隔離,請選擇不同的Catalog。

重要

支援選擇DLF和DLF-Legacy版本(介面中展示DLF 1.0)。選擇不同版本後,後續請根據此處選擇建立Paimon表或Hive表。

工作空間基礎路徑

請選擇一個OSS Bucket路徑,用於儲存任務作業的記錄檔。

說明
  • 專業版:該工作空間包含所有基礎版的功能,以及進階特性和效能改進項。更適合大規模ETL作業。

  • 基礎版:該工作空間包含所有基礎功能,以及提供具有優勢的計算引擎。

DataWorks環境準備

使用DataWorks開發前,請確保已開通DataWorks服務,詳情請參見開通DataWorks服務

一、建立工作空間

如果在華東2(上海)地區已有(新版)工作空間,可以忽略該步驟,使用已有工作空間。

  1. 登入DataWorks控制台,在頂部切換地區至華東2(上海),單擊左側導覽列中的工作空間,進入空間列表頁面。

  2. 單擊建立工作空間,建立使用新版資料開發(Data Studio)標準模式空間(生產、開發環境隔離)。

    說明

    2025年02月18日後,主帳號在華東2(上海)地區首次開通DataWorks並建立工作空間時,預設啟用新版資料開發。

更多建立工作空間的操作指導,請參見建立工作空間

二、建立Serverless資源群組

  1. 購買Serverless資源群組。

    本教程在資料同步與調度時,需要使用DataWorks的Serverless資源群組,因此您需要先購買Serverless資源群組,並完成前期的準備工作。

  2. 登入DataWorks-資源群組列表頁,在頂部切換地區至華東2(上海),單擊左側導覽列的資源群組,進入資源群組列表頁面。

  3. 單擊建立資源群組,在資源群組購買頁面,選擇地區和可用性區域華東2(上海)、設定資源群組名稱,其他參數可根據介面提示進行配置,然後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費

    說明

    如當前地區沒有可用的VPC和交換器,請單擊參數說明中對應的控制台連結前往建立。VPC和交換器的更多資訊,請參見什麼是Virtual Private Cloud

  4. 將資源群組綁定至DataWorks工作空間。

    新購買的Serverless資源群組需要綁定至工作空間,才能在後續操作中使用。

    登入DataWorks-資源群組列表頁,在頂部切換地區至華東2(上海),找到購買的Serverless資源群組,單擊操作列的綁定工作空間,然後單擊已建立的DataWorks工作空間後的綁定

  5. 為資源群組配置公網訪問能力。

    由於本教程使用的測試資料需要通過公網擷取,資源群組預設不具備公網訪問能力,因此需要為資源群組綁定的VPC配置公網NAT Gateway,添加EIP,使其與公開資料網路打通,從而擷取資料。

    1. 登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換地區至華東2(上海)

    2. 單擊建立公網NAT Gateway,配置相關參數。以下為本樣本所需配置的關鍵參數,未說明參數保持預設即可。

      參數

      取值

      地區

      華東2(上海)。

      網路及可用性區域

      選擇資源群組綁定的VPC和交換器。

      您可以前往DataWorks管理主控台,切換至華東2(上海)地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定專用網路交換器。VPC和交換器的更多資訊,請參見什麼是Virtual Private Cloud

      網路類型

      公網NAT Gateway。

      Elastic IP Address執行個體

      建立Elastic IP Address。

      關聯角色建立

      首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色

    3. 單擊立即購買,勾選服務合約後,單擊立即開通,完成購買。

    4. NAT Gateway執行個體購買成功後,單擊返回控制台,為剛購買的NAT Gateway執行個體建立SNAT條目。

      說明

      只有配置了SNAT條目後,使用該Virtual Private Cloud的資源群組才能訪問公網。

      1. 單擊新購執行個體操作列的管理按鈕,進入目標NAT Gateway執行個體的管理頁面,並切至SNAT管理頁簽

      2. SNAT條目列表下單擊建立SNAT條目按鈕,建立NAT條目,以下為關鍵配置:

        參數

        取值

        SNAT條目粒度

        選擇VPC粒度,確保NAT Gateway所屬VPC內的所有資源群組都可通過配置的Elastic IP Address訪問公網。

        選擇Elastic IP Address地址

        配置當前NAT Gateway執行個體綁定的Elastic IP Address地址。

      3. 完成SNAT條目參數配置後,單擊確定建立按鈕,建立SNAT條目。

      SNAT條目列表下,當新建立的SNAT條目的狀態變成可用即表示資源群組綁定的Virtual Private Cloud已具備公網訪問能力。

更多新增和使用Serverless資源群組的操作指導,請參見使用Serverless資源群組

三、綁定EMR Serverless Spark為計算資源

  1. 進入DataWorks-工作空間列表頁,在頂部切換地區至華東2(上海),找到已建立的工作空間,單擊工作空間名稱,進入空間詳情頁。

  2. 在左側導覽列單擊計算資源

  3. 單擊綁定計算資源,選擇需要綁定的計算資源類型,然後配置相關參數。

    本教程使用EMR Serverless Spark作為計算和儲存資源,此處計算資源類型選擇EMR Serverless Spark,配置相關參數。以下為本樣本所需配置的關鍵參數,未說明參數保持預設即可。

    參數

    說明

    Spark工作空間

    選擇需要綁定的Spark工作空間,下拉選擇EMR Serverless Spark工作空間,您也可以在下拉式功能表中單擊建立,前往EMR Serverless Spark控制台進行建立,然後再回到DataWorks空間中選擇新建立的Spark工作空間。

    說明
    • 如果在建立工作空間時選擇了隔離生產、開發環境,則此處需要分別為生產和開發環境選擇Spark工作空間。

    • 如何建立Spark工作空間,請參見建立Spark工作空間

    預設引擎版本

    在Data Studio中建立EMR Spark任務時,將會預設使用此處配置的引擎版本、資源隊列。

    預設資源隊列

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該Spark工作空間。

    • 開發環境:當前僅支援使用執行者身份訪問。

    • 生產環境:支援使用阿里雲主帳號阿里雲RAM子帳號任務責任人

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

  4. 單擊確認,完成Serverless Spark計算資源配置。

更多綁定計算資源的操作指導,請參見:綁定計算資源

後續步驟

現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS,然後通過Spark SQL節點建表查詢同步後的資料。詳情請參見同步資料