全部產品
Search
文件中心

E-MapReduce:準備環境

更新時間:Feb 21, 2025

本教程以使用者Portrait analysis為例,示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的EMR叢集、DataWorks工作空間,並做好相關的環境配置。

業務背景

為了更好地制定企業經營策略,現需要從使用者網站行為中擷取網站使用者群體基本畫像資料,例如,使用者群體的地理屬性、社會屬性等,實現定時定點進行Portrait analysis,進而實現網站流量精細化營運操作。

操作前須知

為了順利進行教程操作,請您務必閱讀實驗介紹,充分瞭解使用者Portrait analysis實驗整體流程。

注意事項

  • 本實驗提供教程所需使用者資訊資料與網站訪問測試資料,您可直接使用。

  • 本實驗提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用,所有資料均為人工Mock資料。

  • 本實驗使用資料開發(DataStudio)(舊版)進行資料加工。

EMR環境準備

建立EMR叢集

本教程需要您建立一個EMR叢集,用於整合到DataWorks,使得您能夠在DataWorks平台上執行基於EMR叢集的資料處理任務。在建立EMR叢集進行軟體配置時,關鍵參數配置如下:

參數

取值

地區

華東2(上海)

業務情境

資料湖

產品版本

選擇最新版本。

可選服務

根據實際需求選擇組件,其中Hive組件、OSS-HDFS組件在本案例中必選。

中繼資料

DLF統一中繼資料

叢集儲存根路徑

選擇OSS-HDFS執行個體。如果下拉式清單為空白,請單擊建立OSS-HDFS執行個體

建立EMR叢集的詳細操作,請參見建立叢集

說明

對於EMR叢集的不同配置,DataWorks產品支援情況存在一定差異。如果您需要在DataWorks上進行EMR任務開發,建議您在建立EMR叢集前先參考DataWorks on EMR叢集配置最佳實務

DataWorks環境準備

在DataWorks上開發前需要已開通DataWorks服務,詳情請參見DataWorks準備工作

步驟一:建立工作空間

如果在華東2(上海)地區已有工作空間,可以忽略該步驟,使用已有工作空間。

  1. 登入DataWorks控制台,在左上方切換地區至華東2(上海)

  2. 單擊左側導覽列中的工作空間,進入空間列表頁面,單擊建立工作空間,建立標準模式空間(生產、開發環境隔離),詳情請參見建立工作空間

步驟二:建立Serverless資源群組

本教程在資料同步與調度時,需要使用DataWorks的Serverless資源群組,因此您需要先購買Serverless資源群組,並完成前期的準備工作。

  1. 購買Serverless資源群組。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。

    2. 單擊建立資源群組,在資源群組購買頁面,選擇地區和可用性區域華東2(上海)、設定資源群組名稱,其他參數可根據介面提示進行配置,完成後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費

      說明

      本教程將使用華東2(上海)地區的Serverless資源群組進行樣本示範,需注意Serverless資源群組不支援跨地區操作。

  2. 配置Serverless資源群組。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。

    2. 找到購買的Serverless資源群組,單擊操作列的綁定工作空間,根據介面提示將資源群組綁定至已建立的DataWorks工作空間。

    3. 為資源群組配置公網訪問能力。

      本教程使用的測試資料需要通過公網擷取,而上一步建立的資源群組預設不具備公網訪問能力,需要為資源群組綁定的VPC配置公網NAT Gateway,添加EIP,使其與公開資料網路打通,從而擷取資料。

      1. 登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換至華東2(上海)地區。

      2. 單擊建立公網NAT Gateway。配置相關參數。

        參數

        取值

        所屬地區

        華東2(上海)。

        所屬專用網路

        選擇資源群組綁定的VPC和交換器。

        您可以前往DataWorks管理主控台,切換地區後,在左側導覽列單擊資源群組列表,找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定專用網路交換器。VPC和交換器的更多資訊,請參見什麼是專用網路

        關聯交換器

        訪問模式

        專用網路全通模式(SNAT)。

        Elastic IP Address執行個體

        新購Elastic IP Address。

        關聯角色建立

        首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色

        說明

        上表中未說明的參數保持預設值即可。

      3. 單擊立即購買,勾選服務合約後,單擊立即開通,完成購買。

更多新增和使用Serverless資源群組的操作指導請參見新增和使用Serverless資源群組

步驟三:註冊EMR叢集並完成資源群組初始化

只有將叢集註冊至DataWorks,才可以在DataWorks上使用EMR叢集。

  1. 進入EMR叢集註冊頁面。

    1. 進入管理中心頁面。

      登入DataWorks控制台,切換地區至華東2(上海)後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 單擊左側導覽列的叢集管理,進入叢集管理頁面 ,單擊註冊叢集按鈕,選擇註冊叢集類型E-MapReduce。進入註冊E-MapReduce叢集頁面。

  2. 註冊EMR叢集。

    註冊E-MapReduce叢集頁面配置叢集資訊,關鍵參數配置資訊如下。

    參數

    取值

    叢集所屬雲帳號

    當前阿里雲主帳號

    叢集類型

    資料湖(DataLake)

    預設訪問身份

    叢集帳號:hadoop

    傳遞proxy user資訊

    傳遞

  3. 資源群組初始化。

    1. 叢集管理頁面,找到登入的EMR叢集,單擊右上方的資源群組初始化

    2. 在需要初始化的資源群組後面單擊初始化

    3. 完成後單擊確認

    重要

    初始化資源群組時,請務必確保初始化成功,否則可能導致任務運行失敗。如果初始化失敗,請根據介面提示查看失敗原因並進行連通性診斷。

註冊EMR叢集的詳細操作,請參見註冊EMR叢集至DataWorks

後續步驟

現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS,然後通過EMR Hive節點建表查詢同步後的資料。詳情請參見同步資料