為使用者Portrait analysis教程準備DataWorks與EMR Serverless Spark環境-巨量資料開發治理平台 DataWorks-阿里雲

本教程以使用者畫像為例，在華東2（上海）地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程，您需要準備教程所需的EMR Serverless Spark空間、DataWorks工作空間，並進行相關的環境配置。

業務背景

為了更好地制定企業經營策略，現需要從使用者網站行為中擷取網站使用者群體基本畫像資料，例如，使用者群體的地理屬性、社會屬性等，實現定時定點進行Portrait analysis，進而實現網站流量精細化營運操作。

操作前須知

為了順利進行教程操作，請您務必閱讀實驗介紹，充分瞭解使用者Portrait analysis案例整體流程。

注意事項

本教程提供教程所需使用者資訊資料與網站訪問測試資料，您可直接使用。
本教程提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用，所有資料均為人工Mock資料。
本教程使用資料開發（Data Studio）（新版）進行資料加工。

OSSObject Storage Service環境準備

本教程需要您建立一個OSS Bucket，後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中，用於資料建模和資料分析。

登入OSS控制台。
在左側導覽列，單擊Bucket列表，在Bucket列表頁面，單擊建立Bucket。
在建立Bucket對話方塊中，配置各項參數，單擊完成建立。配置如下：
參數
取值
Bucket名稱
本樣本命名為dw-spark-demo。
地區
選擇華東2（上海）
HDFS服務
根據介面提示開啟HDFS服務開關
在Bucket列表頁單擊相應的Bucket名稱，進入Bucket的檔案管理頁面。

EMR Serverless Spark工作空間準備

本案例採用EMR Serverless Spark進行案例，請確保您已擁有Spark空間，若您沒有Spark空間，需建立工作空間。配置如下：

參數	取值
地區	華東2（上海）
付費類型	隨用隨付。
工作空間名稱	自訂名稱即可。
DLF 作為中繼資料服務	選擇需要綁定的DLF資料目錄（Catalog），如不同EMR叢集期望中繼資料完全隔離，請選擇不同的Catalog。重要支援選擇DLF和DLF-Legacy版本（介面中展示DLF 1.0）。選擇不同版本後，後續請根據此處選擇建立Paimon表或Hive表。
工作空間基礎路徑	請選擇一個OSS Bucket路徑，用於儲存任務作業的記錄檔。

說明

專業版：該工作空間包含所有基礎版的功能，以及進階特性和效能改進項。更適合大規模ETL作業。
基礎版：該工作空間包含所有基礎功能，以及提供具有優勢的計算引擎。

DataWorks環境準備

使用DataWorks開發前，請確保已開通DataWorks服務，詳情請參見開通DataWorks服務。

一、建立工作空間

如果在華東2（上海）地區已有（新版）工作空間，可以忽略該步驟，使用已有工作空間。

登入DataWorks控制台，在頂部切換地區至華東2（上海），單擊左側導覽列中的工作空間，進入空間列表頁面。
單擊建立工作空間，建立使用新版資料開發（Data Studio）的標準模式空間（生產、開發環境隔離）。
說明
2025年02月18日後，主帳號在華東2（上海）地區首次開通DataWorks並建立工作空間時，預設啟用新版資料開發。

更多建立工作空間的操作指導，請參見建立工作空間。

二、建立Serverless資源群組

購買Serverless資源群組。
本教程在資料同步與調度時，需要使用DataWorks的Serverless資源群組，因此您需要先購買Serverless資源群組，並完成前期的準備工作。
登入DataWorks-資源群組列表頁，在頂部切換地區至華東2（上海），單擊左側導覽列的資源群組，進入資源群組列表頁面。
單擊建立資源群組，在資源群組購買頁面，選擇地區和可用性區域為華東2（上海）、設定資源群組名稱，其他參數可根據介面提示進行配置，然後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費。
說明
如當前地區沒有可用的VPC和交換器，請單擊參數說明中對應的控制台連結前往建立。VPC和交換器的更多資訊，請參見什麼是Virtual Private Cloud。
將資源群組綁定至DataWorks工作空間。
新購買的Serverless資源群組需要綁定至工作空間，才能在後續操作中使用。
登入DataWorks-資源群組列表頁，在頂部切換地區至華東2（上海），找到購買的Serverless資源群組，單擊操作列的綁定工作空間，然後單擊已建立的DataWorks工作空間後的綁定。

為資源群組配置公網訪問能力。

由於本教程使用的測試資料需要通過公網擷取，資源群組預設不具備公網訪問能力，因此需要為資源群組綁定的VPC配置公網NAT Gateway，添加EIP，使其與公開資料網路打通，從而擷取資料。

登入專用網路-公網NAT Gateway控制台，在頂部功能表列切換地區至華東2（上海）。

單擊建立公網NAT Gateway，配置相關參數。以下為本樣本所需配置的關鍵參數，未說明參數保持預設即可。

參數	取值
地區	華東2（上海）。
網路及可用性區域	選擇資源群組綁定的VPC和交換器。您可以前往DataWorks管理主控台，切換至華東2（上海）地區後，單擊左側導覽列的資源群組，進入資源群組列表頁面。找到已建立的資源群組，然後單擊操作列的網路設定，在資料調度 & Data Integration地區查看綁定專用網路和交換器。VPC和交換器的更多資訊，請參見什麼是Virtual Private Cloud。
網路類型	公網NAT Gateway。
Elastic IP Address執行個體	建立Elastic IP Address。
關聯角色建立	首次建立NAT Gateway時，需要建立服務關聯角色，請單擊建立關聯角色。

單擊立即購買，勾選服務合約後，單擊立即開通，完成購買。

NAT Gateway執行個體購買成功後，單擊返回控制台，為剛購買的NAT Gateway執行個體建立SNAT條目。

說明

只有配置了SNAT條目後，使用該Virtual Private Cloud的資源群組才能訪問公網。

單擊新購執行個體操作列的管理按鈕，進入目標NAT Gateway執行個體的管理頁面，並切至SNAT管理頁簽。

在SNAT條目列表下單擊建立SNAT條目按鈕，建立NAT條目，以下為關鍵配置：

參數	取值
SNAT條目粒度	選擇VPC粒度，確保NAT Gateway所屬VPC內的所有資源群組都可通過配置的Elastic IP Address訪問公網。
選擇Elastic IP Address地址	配置當前NAT Gateway執行個體綁定的Elastic IP Address地址。

完成SNAT條目參數配置後，單擊確定建立按鈕，建立SNAT條目。

在SNAT條目列表下，當新建立的SNAT條目的狀態變成可用後，即表示資源群組綁定的Virtual Private Cloud已具備公網訪問能力。

更多新增和使用Serverless資源群組的操作指導，請參見使用Serverless資源群組。

三、綁定EMR Serverless Spark為計算資源

進入DataWorks-工作空間列表頁，在頂部切換地區至華東2（上海），找到已建立的工作空間，單擊工作空間名稱，進入空間詳情頁。
在左側導覽列單擊計算資源。

單擊綁定計算資源，選擇需要綁定的計算資源類型，然後配置相關參數。

本教程使用EMR Serverless Spark作為計算和儲存資源，此處計算資源類型選擇EMR Serverless Spark，配置相關參數。以下為本樣本所需配置的關鍵參數，未說明參數保持預設即可。

參數	說明
Spark工作空間	選擇需要綁定的Spark工作空間，下拉選擇EMR Serverless Spark工作空間，您也可以在下拉式功能表中單擊建立，前往EMR Serverless Spark控制台進行建立，然後再回到DataWorks空間中選擇新建立的Spark工作空間。說明如果在建立工作空間時選擇了隔離生產、開發環境，則此處需要分別為生產和開發環境選擇Spark工作空間。如何建立Spark工作空間，請參見建立Spark工作空間。
預設引擎版本	在Data Studio中建立EMR Spark任務時，將會預設使用此處配置的引擎版本、資源隊列。
預設資源隊列	在Data Studio中建立EMR Spark任務時，將會預設使用此處配置的引擎版本、資源隊列。
預設訪問身份	定義在當前工作空間下，用什麼身份訪問該Spark工作空間。開發環境：當前僅支援使用執行者身份訪問。生產環境：支援使用阿里雲主帳號、阿里雲RAM子帳號和任務責任人。
計算資源執行個體名	用於標識該計算資源，在任務運行時，通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

單擊確認，完成Serverless Spark計算資源配置。

更多綁定計算資源的操作指導，請參見：綁定計算資源。

後續步驟

現在，您已經完成了環境的準備，您可以繼續下一個教程。在下一個教程中，您將學習將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS，然後通過Spark SQL節點建表查詢同步後的資料。詳情請參見同步資料。

參數	取值
Bucket名稱	本樣本命名為`dw-spark-demo`。
地區	選擇華東2（上海）
HDFS服務	根據介面提示開啟HDFS服務開關