使用DataWorks與EMR Serverless Spark準備使用者Portrait analysis環境-開源巨量資料平台 E-MapReduce-阿里雲

本教程以使用者畫像為例，在華東2（上海）地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程，您需要準備教程所需的 EMR Serverless Spark空間、DataWorks工作空間，並進行相關的環境配置。

DataWorks產品準備

本案需確保您已開通DataWorks產品，若您帳號下沒有DataWorks產品，需在巨量資料開發治理平台 DataWorks頁面進行開通，詳情請參見：購買指引。

EMR Serverless Spark 工作空間準備

本案例採用EMR Serverless Spark作為計算資源，請確保您已擁有Spark空間，若您沒有Spark空間，需在E-MapReduce控制台頁面選擇Spark後進行開通。

地區：華東2（上海）。
付費類型：隨用隨付。
工作空間名稱：自訂名稱即可。
DLF 作為中繼資料服務：選擇需要綁定的 DLF 資料目錄（Catalog），如不同 EMR 叢集期望中繼資料完全隔離，請選擇不同的 Catalog。
工作空間基礎路徑：請選擇一個 OSS Bucket 路徑，用於儲存任務作業的記錄檔。
工作空間類型：本案例選擇專業版。
說明
- 專業版：該工作空間包含所有基礎版的功能，以及進階特性和效能改進項。更適合大規模 ETL 作業。
- 基礎版：該工作空間包含所有基礎功能，以及提供具有優勢的計算引擎。

私人OSS環境準備

本教程需要您建立一個OSS Bucket，後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中，用於資料建模和資料分析。

登入OSS控制台。
在左側導覽列，單擊Bucket列表，在Bucket列表頁面，單擊建立Bucket。
在建立Bucket對話方塊中，配置各項參數，單擊完成建立。
- Bucket名稱：自訂。
- 地區：選擇華東2（上海）。
- HDFS服務：根據介面提示開啟HDFS服務開關。
  更多參數說明請參見控制台建立儲存空間。
在Bucket列表頁單擊相應的Bucket名稱，進入Bucket的檔案管理頁面。

DataWorks環境準備

在準備好DataWorks、EMR Serverless Spark以及OSSObject Storage Service產品後，可以在DataWorks內建立工作空間、新增註冊Spark叢集以及建立資料來源，為後續的同步資料、加工資料提供環境。

建立DataWorks工作空間

登入DataWorks控制台。
單擊左側導覽列上的工作空間列表，進入空間列表頁面。
單擊建立工作空間，在左側彈出的建立工作空間面板內建立生產、開發環境隔離的標準模式空間。

說明

因本樣本提供的資料資源都在華東2（上海），建議您將工作空間建立在華東2（上海），以避免工作空間建立在其它地區，添加資料來源時出現網路不可達的情況，如果您想要更簡便的操作可以在生產、環境是否隔離這一參數處選擇否。

建立資源群組

在使用DataWorks前，必須建立資源群組，為資料同步與調度提供運行資源，所以需要確保資源群組與Serverless Spark之間的網路正常聯通。

購買Serverless資源群組。
1. 登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的資源群組，進入資源群組列表頁面。
2. 單擊建立資源群組，在資源群組購買頁面，選擇地區和可用性區域為華東2（上海）、設定資源群組名稱，其他參數可根據介面提示進行配置，完成後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費。
  說明
  本教程將使用華東2（上海）地區的Serverless資源群組進行樣本示範，需注意Serverless資源群組不支援跨地區操作。

配置Serverless資源群組。

登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的資源群組，進入資源群組列表頁面。
找到購買的Serverless資源群組，單擊操作列的修改歸屬工作空間，根據介面提示將資源群組綁定至已建立的DataWorks工作空間。

為資源群組配置公網訪問能力。

登入專用網路-公網NAT Gateway控制台，在頂部功能表列切換至華東2（上海）地區。

單擊建立NAT Gateway。配置相關參數。

參數	取值
所屬地區	華東2（上海）。
所屬專用網路	選擇資源群組綁定的VPC和交換器。您可以前往DataWorks管理主控台，切換地區後，在左側導覽列單擊資源群組列表，找到已建立的資源群組，然後單擊操作列的網路設定，在資料調度 & Data Integration地區查看綁定的專用網路和交換器。VPC和交換器的更多資訊，請參見什麼是專用網路。
關聯交換器
訪問模式	VPC全通模式（SNAT）。
Elastic IP Address	新購Elastic IP Address。
關聯角色建立	首次建立NAT Gateway時，需要建立服務關聯角色，請單擊建立關聯角色。

說明

上表中未說明的參數保持預設值即可。

單擊立即購買，勾選服務合約後，單擊確認訂單，完成購買。

註冊EMR Serverless Spark叢集

使用者Portrait analysis的流程中的資料存放區與資料處理，將在EMR Serverless Spark叢集中進行，需您提前註冊好相應的Spark叢集。

進入管理中心頁面。
登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的更多 > 管理中心，在下拉框中選擇對應工作空間後單擊進入管理中心。

單擊左側導覽列的叢集管理進入叢集管理頁面後，單擊註冊叢集，即可在彈窗內選擇E-MapReduce，進行配置EMR Serverless Spark叢集。
註冊E-MapReduce 叢集
- 叢集顯示名稱：自訂即可。
- 叢集所屬雲帳號：選擇當前阿里雲主帳號。
- 叢集類型：EMR Serverless Spark。
- E-MapReduce工作空間：選擇準備的EMR Serverless Spark 工作空間準備。
- 預設引擎版本：在DataStudio中建立EMR Spark任務時，將會預設使用該引擎版本。如需面向不同任務設定不同的引擎版本，請在Spark任務編輯視窗的“進階設定”中進行定義。
- 預設資源隊列：在DataStudio中建立EMR Spark任務時，將會預設使用該資源隊列。如需面向不同任務設定不同的資源隊列，請在Spark任務編輯視窗的“進階設定”中進行定義。
- 預設SQL Compute：在DataStudio中建立EMR Spark SQL任務時，將會預設使用該SQL Compute。如需面向不同任務設定不同的SQL Compute，請在Spark任務編輯視窗的“進階設定”中進行定義。
- 預設訪問身份：開發環境預設為執行者，生產環境可選擇阿里雲主帳號、阿里雲RAM子帳號、任務責任人。
  說明
  本教程配置如上，若您的情境與此不同，可參考註冊EMR叢集至DataWorks。

建立資料來源

本教程為您提供了儲存使用者資訊資料的MySQL資料庫，以及儲存使用者日誌資料的OSSObject Storage Service，需要在DataWorks上將其建立為資料來源以供資料同步使用。

說明

平台已提供本教程所需的測試資料及資料來源，您需將該資料來源添加至您的工作空間，即可在工作空間訪問平台提供的測試資料。
本教程提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用，所有資料均為人工Mock資料，並且只支援在Data Integration模組讀取資料。
在私人OSS環境準備步驟中建立的OSSObject Storage Service的Bucket將用於接收MySQL資料來源的使用者資訊資料與HttpFile的日誌資料資訊。

建立MySQL資料來源

本案例建立MySQL資料來源的資料庫由平台提供，作為Data Integration任務的資料來源，提供使用者資訊資料。

在管理中心頁面，單擊進入資料來源頁面後單擊新增資料來源。
在新增資料來源對話方塊中，搜尋選擇資料來源類型為MySQL。

在建立MySQL資料來源頁面，配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。

參數	描述
資料來源名稱	輸入資料來源名稱，本教程請填寫user_behavior_analysis_mysql。
資料來源描述	輸入DataWorks案例體驗專用資料來源，在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料，該資料來源只支援Data Integration情境讀取，其他模組不支援使用。
配置模式	選擇串連串模式。
串連地址	主機地址IP：`rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com` 連接埠號碼：`3306`
資料庫名稱	輸入資料庫名，本教程請填寫`workshop`·
使用者名稱	輸入使用者名稱，本教程請填寫workshop。
密碼	輸入密碼，本教程請填寫workshop#2017。
認證選項	無認證。

單擊指定的資源群組連通狀態（開發環境）和連通狀態（生產環境）列的測試連通性，等待介面提示測試完成，連通狀態為可連通。
單擊完成建立。

建立HttpFile資料來源

本次案例建立HttpFile資料來源為OSSObject Storage Service，該OSSObject Storage Service由平台提供，作為Data Integration任務的資料來源側提供日誌資料。

進入資料來源頁面。
1. 登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的更多 > 管理中心，在下拉框中選擇對應工作空間後單擊進入管理中心。
2. 進入工作空間管理中心頁面後，單擊左側導覽列的資料來源，進入資料來源頁面。
單擊新增資料來源，在新增資料來源對話方塊中，搜尋選擇資料來源類型為HttpFile。

在建立HttpFile資料來源頁面，配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。

參數	描述
資料來源名稱	輸入資料來源名稱，本教程請填寫user_behavior_analysis_httpfile。
資料來源描述	輸入DataWorks案例體驗專用資料來源，在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料，該資料來源只支援Data Integration情境讀取，其他模組不支援使用。
URL網域名稱	開發環境和生產環境的URL網域名稱均為`https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com`。

單擊指定的資源群組連通狀態（開發環境）和連通狀態（生產環境）列的測試連通性，等待介面提示測試完成，連通狀態為可連通。
重要
需確保至少一個資源群組為可連通狀態，否則此資料來源無法使用嚮導模式建立同步任務。
單擊完成建立。

添加私人OSS資料來源

本次案例建立私人OSS資料來源的OSSObject Storage Service需您自行準備，將作為Data Integration的資料去向來接收使用者資訊資料與使用者日誌資訊資料。

說明

該私人OSS資料來源指的是您自己的OSSObject Storage Service建立的OSS資料來源，用來儲存從DataWorks文檔提供的MySQL中匯入的使用者資訊資料與儲存從DataWorks文檔提供的OSSObject Storage Service建立的HttpFile資料來源中匯入的日誌資料。

在管理中心頁面，單擊進入資料來源 > 資料來源列表頁面後單擊新增資料來源。
在新增資料來源對話方塊中，搜尋選擇資料來源類型為OSS。

在新增OSS資料來源對話方塊中，配置各項參數。

參數	描述
資料來源名稱	輸入資料來源的名稱，本樣本為test_g。
資料來源描述	對資料來源進行簡單描述。
Endpoint	輸入`http://oss-cn-shanghai-internal.aliyuncs.com`
Bucket	您準備環境時建立的OSS Bucket的名稱，樣本為dw-emr-demo
訪問模式	RAM角色授權模式	通過STS授權的方式允許雲產品服務帳號扮演相關角色來訪問資料來源，具備更高安全性，詳見：通過RAM角色授權模式配置資料來源。
	Access Key模式	AccessKey ID	當前登入帳號的AccessKey ID，您可以進入安全資訊管理頁面複製AccessKey ID。
		AccessKey Secret	輸入當前登入帳號的AccessKey Secret。重要 AccessKey Secret只在建立時顯示，不支援後續再次查看，請妥善保管。如果AccessKey泄露或丟失，請刪除並建立新的AccessKey。

說明

訪問模式在RAM角色授權模式和Access Key模式選擇其一即可。

單擊指定資源群組連通狀態列的測試連通性，等待介面提示測試完成，連通狀態為可連通。
重要
需確保至少一個資源群組為可連通狀態，否則此資料來源無法使用嚮導模式建立同步任務。
單擊完成。

後續步驟

現在，您已經完成了環境的準備，可以繼續下一個教程。在下一個教程中，您將學習如何將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS中，再通過Spark SQL建立外部表格來訪問私人OSS資料存放區。詳情請參見同步資料。