全部產品
Search
文件中心

E-MapReduce:準備環境

更新時間:Jun 17, 2025

本教程以使用者畫像為例,在華東2(上海)地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的 EMR Serverless Spark空間、DataWorks工作空間,並進行相關的環境配置。

DataWorks產品準備

本案需確保您已開通DataWorks產品,若您帳號下沒有DataWorks產品,需在巨量資料開發治理平台 DataWorks頁面進行開通,詳情請參見:購買指引

EMR Serverless Spark 工作空間準備

本案例採用EMR Serverless Spark作為計算資源,請確保您已擁有Spark空間,若您沒有Spark空間,需在E-MapReduce控制台頁面選擇Spark後進行開通。

  • 地區:華東2(上海)。

  • 付費類型:隨用隨付。

  • 工作空間名稱:自訂名稱即可。

  • DLF 作為中繼資料服務:選擇需要綁定的 DLF 資料目錄(Catalog),如不同 EMR 叢集期望中繼資料完全隔離,請選擇不同的 Catalog。

  • 工作空間基礎路徑:請選擇一個 OSS Bucket 路徑,用於儲存任務作業的記錄檔。

  • 工作空間類型:本案例選擇專業版

    說明
    • 專業版:該工作空間包含所有基礎版的功能,以及進階特性和效能改進項。更適合大規模 ETL 作業。

    • 基礎版:該工作空間包含所有基礎功能,以及提供具有優勢的計算引擎。

私人OSS環境準備

本教程需要您建立一個OSS Bucket,後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中,用於資料建模和資料分析。

  1. 登入OSS控制台

  2. 在左側導覽列,單擊Bucket列表,在Bucket列表頁面,單擊建立Bucket

  3. 建立Bucket對話方塊中,配置各項參數,單擊完成建立

    • Bucket名稱:自訂。

    • 地區:選擇華東2(上海)

    • HDFS服務:根據介面提示開啟HDFS服務開關。

      更多參數說明請參見控制台建立儲存空間

  4. 在Bucket列表頁單擊相應的Bucket名稱,進入Bucket的檔案管理頁面。

DataWorks環境準備

在準備好DataWorks、EMR Serverless Spark以及OSSObject Storage Service產品後,可以在DataWorks內建立工作空間、新增註冊Spark叢集以及建立資料來源,為後續的同步資料、加工資料提供環境。

建立DataWorks工作空間

  1. 登入DataWorks控制台

  2. 單擊左側導覽列上的工作空間列表,進入空間列表頁面。

  3. 單擊建立工作空間,在左側彈出的建立工作空間面板內建立生產、開發環境隔離標準模式空間。

說明

因本樣本提供的資料資源都在華東2(上海),建議您將工作空間建立在華東2(上海),以避免工作空間建立在其它地區,添加資料來源時出現網路不可達的情況,如果您想要更簡便的操作可以在生產、環境是否隔離這一參數處選擇

建立資源群組

在使用DataWorks前,必須建立資源群組,為資料同步與調度提供運行資源,所以需要確保資源群組與Serverless Spark之間的網路正常聯通。

  1. 購買Serverless資源群組。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。

    2. 單擊建立資源群組,在資源群組購買頁面,選擇地區和可用性區域華東2(上海)、設定資源群組名稱,其他參數可根據介面提示進行配置,完成後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費

      說明

      本教程將使用華東2(上海)地區的Serverless資源群組進行樣本示範,需注意Serverless資源群組不支援跨地區操作。

  2. 配置Serverless資源群組。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。

    2. 找到購買的Serverless資源群組,單擊操作列的修改歸屬工作空間,根據介面提示將資源群組綁定至已建立的DataWorks工作空間。

    3. 為資源群組配置公網訪問能力。

      1. 登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換至華東2(上海)地區。

      2. 單擊建立NAT Gateway。配置相關參數。

        參數

        取值

        所屬地區

        華東2(上海)。

        所屬專用網路

        選擇資源群組綁定的VPC和交換器。

        您可以前往DataWorks管理主控台,切換地區後,在左側導覽列單擊資源群組列表,找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定的專用網路交換器。VPC和交換器的更多資訊,請參見什麼是專用網路

        關聯交換器

        訪問模式

        VPC全通模式(SNAT)。

        Elastic IP Address

        新購Elastic IP Address。

        關聯角色建立

        首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色

        說明

        上表中未說明的參數保持預設值即可。

      3. 單擊立即購買,勾選服務合約後,單擊確認訂單,完成購買。

註冊EMR Serverless Spark叢集

使用者Portrait analysis的流程中的資料存放區與資料處理,將在EMR Serverless Spark叢集中進行,需您提前註冊好相應的Spark叢集。

  1. 進入管理中心頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  1. 單擊左側導覽列的叢集管理進入叢集管理頁面後,單擊註冊叢集,即可在彈窗內選擇E-MapReduce,進行配置EMR Serverless Spark叢集。

  2. 註冊E-MapReduce 叢集

    • 叢集顯示名稱:自訂即可。

    • 叢集所屬雲帳號:選擇當前阿里雲主帳號。

    • 叢集類型:EMR Serverless Spark。

    • E-MapReduce工作空間:選擇準備的EMR Serverless Spark 工作空間準備

    • 預設引擎版本:在DataStudio中建立EMR Spark任務時,將會預設使用該引擎版本。如需面向不同任務設定不同的引擎版本,請在Spark任務編輯視窗的“進階設定”中進行定義。

    • 預設資源隊列:在DataStudio中建立EMR Spark任務時,將會預設使用該資源隊列。如需面向不同任務設定不同的資源隊列,請在Spark任務編輯視窗的“進階設定”中進行定義。

    • 預設SQL Compute:在DataStudio中建立EMR Spark SQL任務時,將會預設使用該SQL Compute。如需面向不同任務設定不同的SQL Compute,請在Spark任務編輯視窗的“進階設定”中進行定義。

    • 預設訪問身份開發環境預設為執行者生產環境可選擇阿里雲主帳號阿里雲RAM子帳號任務責任人

      說明

      本教程配置如上,若您的情境與此不同,可參考註冊EMR叢集至DataWorks

建立資料來源

本教程為您提供了儲存使用者資訊資料的MySQL資料庫,以及儲存使用者日誌資料的OSSObject Storage Service,需要在DataWorks上將其建立為資料來源以供資料同步使用。

說明
  • 平台已提供本教程所需的測試資料及資料來源,您需將該資料來源添加至您的工作空間,即可在工作空間訪問平台提供的測試資料。

  • 本教程提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用,所有資料均為人工Mock資料,並且只支援在Data Integration模組讀取資料。

  • 私人OSS環境準備步驟中建立的OSSObject Storage Service的Bucket將用於接收MySQL資料來源的使用者資訊資料與HttpFile的日誌資料資訊。

建立MySQL資料來源

本案例建立MySQL資料來源的資料庫由平台提供,作為Data Integration任務的資料來源,提供使用者資訊資料。

  1. 管理中心頁面,單擊進入資料來源頁面後單擊新增資料來源

  2. 新增資料來源對話方塊中,搜尋選擇資料來源類型為MySQL

  3. 建立MySQL資料來源頁面,配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。

    參數

    描述

    資料來源名稱

    輸入資料來源名稱,本教程請填寫user_behavior_analysis_mysql

    資料來源描述

    輸入DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境讀取,其他模組不支援使用。

    配置模式

    選擇串連串模式

    串連地址

    • 主機地址IP:rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com

    • 連接埠號碼:3306

    資料庫名稱

    輸入資料庫名,本教程請填寫workshop·

    使用者名稱

    輸入使用者名稱,本教程請填寫workshop

    密碼

    輸入密碼,本教程請填寫workshop#2017

    認證選項

    無認證。

  4. 單擊指定的資源群組連通狀態(開發環境)連通狀態(生產環境)列的測試連通性,等待介面提示測試完成,連通狀態為可連通

  5. 單擊完成建立

建立HttpFile資料來源

本次案例建立HttpFile資料來源為OSSObject Storage Service,該OSSObject Storage Service由平台提供,作為Data Integration任務的資料來源側提供日誌資料。

  1. 進入資料來源頁面。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。

  2. 單擊新增資料來源,在新增資料來源對話方塊中,搜尋選擇資料來源類型為HttpFile

  3. 建立HttpFile資料來源頁面,配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。

    參數

    描述

    資料來源名稱

    輸入資料來源名稱,本教程請填寫user_behavior_analysis_httpfile

    資料來源描述

    輸入DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境讀取,其他模組不支援使用。

    URL網域名稱

    開發環境和生產環境的URL網域名稱均為https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com

  4. 單擊指定的資源群組連通狀態(開發環境)連通狀態(生產環境)列的測試連通性,等待介面提示測試完成,連通狀態為可連通

    重要

    需確保至少一個資源群組為可連通狀態,否則此資料來源無法使用嚮導模式建立同步任務。

  5. 單擊完成建立

添加私人OSS資料來源

本次案例建立私人OSS資料來源的OSSObject Storage Service需您自行準備,將作為Data Integration的資料去向來接收使用者資訊資料與使用者日誌資訊資料。

說明

私人OSS資料來源指的是您自己的OSSObject Storage Service建立的OSS資料來源,用來儲存從DataWorks文檔提供的MySQL中匯入的使用者資訊資料與儲存從DataWorks文檔提供的OSSObject Storage Service建立的HttpFile資料來源中匯入的日誌資料。

  1. 管理中心頁面,單擊進入資料來源 > 資料來源列表頁面後單擊新增資料來源

  2. 新增資料來源對話方塊中,搜尋選擇資料來源類型為OSS

  3. 新增OSS資料來源對話方塊中,配置各項參數。

    參數

    描述

    資料來源名稱

    輸入資料來源的名稱,本樣本為test_g

    資料來源描述

    對資料來源進行簡單描述。

    Endpoint

    輸入http://oss-cn-shanghai-internal.aliyuncs.com

    Bucket

    您準備環境時建立的OSS Bucket的名稱,樣本為dw-emr-demo

    訪問模式

    RAM角色授權模式

    通過STS授權的方式允許雲產品服務帳號扮演相關角色來訪問資料來源,具備更高安全性,詳見:通過RAM角色授權模式配置資料來源

    Access Key模式

    AccessKey ID

    當前登入帳號的AccessKey ID,您可以進入安全資訊管理頁面複製AccessKey ID。

    AccessKey Secret

    輸入當前登入帳號的AccessKey Secret。

    重要

    AccessKey Secret只在建立時顯示,不支援後續再次查看,請妥善保管。如果AccessKey泄露或丟失,請刪除並建立新的AccessKey

    說明

    訪問模式在RAM角色授權模式Access Key模式選擇其一即可。

  4. 單擊指定資源群組連通狀態列的測試連通性,等待介面提示測試完成,連通狀態為可連通

    重要

    需確保至少一個資源群組為可連通狀態,否則此資料來源無法使用嚮導模式建立同步任務。

  5. 單擊完成

後續步驟

現在,您已經完成了環境的準備,可以繼續下一個教程。在下一個教程中,您將學習如何將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS中,再通過Spark SQL建立外部表格來訪問私人OSS資料存放區。詳情請參見同步資料