本教程以使用者畫像為例,在華東2(上海)地區示範如何使用DataWorks完成資料同步、資料加工和品質監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的 EMR Serverless Spark空間、DataWorks工作空間,並進行相關的環境配置。
DataWorks產品準備
本案需確保您已開通DataWorks產品,若您帳號下沒有DataWorks產品,需在巨量資料開發治理平台 DataWorks頁面進行開通,詳情請參見:購買指引。
EMR Serverless Spark 工作空間準備
本案例採用EMR Serverless Spark作為計算資源,請確保您已擁有Spark空間,若您沒有Spark空間,需在E-MapReduce控制台頁面選擇Spark後進行開通。
地區:華東2(上海)。
付費類型:隨用隨付。
工作空間名稱:自訂名稱即可。
DLF 作為中繼資料服務:選擇需要綁定的 DLF 資料目錄(Catalog),如不同 EMR 叢集期望中繼資料完全隔離,請選擇不同的 Catalog。
工作空間基礎路徑:請選擇一個 OSS Bucket 路徑,用於儲存任務作業的記錄檔。
工作空間類型:本案例選擇專業版。
說明專業版:該工作空間包含所有基礎版的功能,以及進階特性和效能改進項。更適合大規模 ETL 作業。
基礎版:該工作空間包含所有基礎功能,以及提供具有優勢的計算引擎。
私人OSS環境準備
本教程需要您建立一個OSS Bucket,後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中,用於資料建模和資料分析。
DataWorks環境準備
在準備好DataWorks、EMR Serverless Spark以及OSSObject Storage Service產品後,可以在DataWorks內建立工作空間、新增註冊Spark叢集以及建立資料來源,為後續的同步資料、加工資料提供環境。
建立DataWorks工作空間
登入DataWorks控制台。
單擊左側導覽列上的工作空間列表,進入空間列表頁面。
單擊建立工作空間,在左側彈出的建立工作空間面板內建立生產、開發環境隔離的標準模式空間。
因本樣本提供的資料資源都在華東2(上海),建議您將工作空間建立在華東2(上海),以避免工作空間建立在其它地區,添加資料來源時出現網路不可達的情況,如果您想要更簡便的操作可以在生產、環境是否隔離這一參數處選擇否。
建立資源群組
在使用DataWorks前,必須建立資源群組,為資料同步與調度提供運行資源,所以需要確保資源群組與Serverless Spark之間的網路正常聯通。
購買Serverless資源群組。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。
單擊建立資源群組,在資源群組購買頁面,選擇地區和可用性區域為華東2(上海)、設定資源群組名稱,其他參數可根據介面提示進行配置,完成後根據介面提示完成付款。Serverless資源群組的計費說明請參見Serverless資源群組計費。
說明
本教程將使用華東2(上海)地區的Serverless資源群組進行樣本示範,需注意Serverless資源群組不支援跨地區操作。
配置Serverless資源群組。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。
找到購買的Serverless資源群組,單擊操作列的修改歸屬工作空間,根據介面提示將資源群組綁定至已建立的DataWorks工作空間。
為資源群組配置公網訪問能力。
登入專用網路-公網NAT Gateway控制台,在頂部功能表列切換至華東2(上海)地區。
單擊建立NAT Gateway。配置相關參數。
參數
取值
所屬地區
華東2(上海)。
所屬專用網路
選擇資源群組綁定的VPC和交換器。
您可以前往DataWorks管理主控台,切換地區後,在左側導覽列單擊資源群組列表,找到已建立的資源群組,然後單擊操作列的網路設定,在資料調度 & Data Integration地區查看綁定的專用網路和交換器。VPC和交換器的更多資訊,請參見什麼是專用網路。
關聯交換器
訪問模式
VPC全通模式(SNAT)。
Elastic IP Address
新購Elastic IP Address。
關聯角色建立
首次建立NAT Gateway時,需要建立服務關聯角色,請單擊建立關聯角色。
說明
上表中未說明的參數保持預設值即可。
單擊立即購買,勾選服務合約後,單擊確認訂單,完成購買。
註冊EMR Serverless Spark叢集
使用者Portrait analysis的流程中的資料存放區與資料處理,將在EMR Serverless Spark叢集中進行,需您提前註冊好相應的Spark叢集。
進入管理中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
單擊左側導覽列的叢集管理進入叢集管理頁面後,單擊註冊叢集,即可在彈窗內選擇E-MapReduce,進行配置EMR Serverless Spark叢集。
註冊E-MapReduce 叢集
叢集顯示名稱:自訂即可。
叢集所屬雲帳號:選擇當前阿里雲主帳號。
叢集類型:EMR Serverless Spark。
E-MapReduce工作空間:選擇準備的EMR Serverless Spark 工作空間準備。
預設引擎版本:在DataStudio中建立EMR Spark任務時,將會預設使用該引擎版本。如需面向不同任務設定不同的引擎版本,請在Spark任務編輯視窗的“進階設定”中進行定義。
預設資源隊列:在DataStudio中建立EMR Spark任務時,將會預設使用該資源隊列。如需面向不同任務設定不同的資源隊列,請在Spark任務編輯視窗的“進階設定”中進行定義。
預設SQL Compute:在DataStudio中建立EMR Spark SQL任務時,將會預設使用該SQL Compute。如需面向不同任務設定不同的SQL Compute,請在Spark任務編輯視窗的“進階設定”中進行定義。
預設訪問身份:開發環境預設為執行者,生產環境可選擇阿里雲主帳號、阿里雲RAM子帳號、任務責任人。
說明本教程配置如上,若您的情境與此不同,可參考註冊EMR叢集至DataWorks。
建立資料來源
本教程為您提供了儲存使用者資訊資料的MySQL資料庫,以及儲存使用者日誌資料的OSSObject Storage Service,需要在DataWorks上將其建立為資料來源以供資料同步使用。
平台已提供本教程所需的測試資料及資料來源,您需將該資料來源添加至您的工作空間,即可在工作空間訪問平台提供的測試資料。
本教程提供資料僅作為阿里雲巨量資料開發治理平台DataWorks資料應用實操使用,所有資料均為人工Mock資料,並且只支援在Data Integration模組讀取資料。
在私人OSS環境準備步驟中建立的OSSObject Storage Service的Bucket將用於接收MySQL資料來源的使用者資訊資料與HttpFile的日誌資料資訊。
建立MySQL資料來源
本案例建立MySQL資料來源的資料庫由平台提供,作為Data Integration任務的資料來源,提供使用者資訊資料。
在管理中心頁面,單擊進入資料來源頁面後單擊新增資料來源。
在新增資料來源對話方塊中,搜尋選擇資料來源類型為MySQL。
在建立MySQL資料來源頁面,配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。
參數
描述
資料來源名稱
輸入資料來源名稱,本教程請填寫user_behavior_analysis_mysql。
資料來源描述
輸入DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境讀取,其他模組不支援使用。
配置模式
選擇串連串模式。
串連地址
主機地址IP:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com連接埠號碼:
3306
資料庫名稱
輸入資料庫名,本教程請填寫
workshop·使用者名稱
輸入使用者名稱,本教程請填寫workshop。
密碼
輸入密碼,本教程請填寫workshop#2017。
認證選項
無認證。
單擊指定的資源群組連通狀態(開發環境)和連通狀態(生產環境)列的測試連通性,等待介面提示測試完成,連通狀態為可連通。
單擊完成建立。
建立HttpFile資料來源
本次案例建立HttpFile資料來源為OSSObject Storage Service,該OSSObject Storage Service由平台提供,作為Data Integration任務的資料來源側提供日誌資料。
進入資料來源頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入管理中心。
進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。
單擊新增資料來源,在新增資料來源對話方塊中,搜尋選擇資料來源類型為HttpFile。
在建立HttpFile資料來源頁面,配置各項參數。在本教程中開發環境和生產環境都按樣本值填寫。
參數
描述
資料來源名稱
輸入資料來源名稱,本教程請填寫user_behavior_analysis_httpfile。
資料來源描述
輸入DataWorks案例體驗專用資料來源,在離線同步配置時讀取該資料來源即可訪問平台提供的測試資料,該資料來源只支援Data Integration情境讀取,其他模組不支援使用。
URL網域名稱
開發環境和生產環境的URL網域名稱均為
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com。單擊指定的資源群組連通狀態(開發環境)和連通狀態(生產環境)列的測試連通性,等待介面提示測試完成,連通狀態為可連通。
重要需確保至少一個資源群組為可連通狀態,否則此資料來源無法使用嚮導模式建立同步任務。
單擊完成建立。
添加私人OSS資料來源
本次案例建立私人OSS資料來源的OSSObject Storage Service需您自行準備,將作為Data Integration的資料去向來接收使用者資訊資料與使用者日誌資訊資料。
該私人OSS資料來源指的是您自己的OSSObject Storage Service建立的OSS資料來源,用來儲存從DataWorks文檔提供的MySQL中匯入的使用者資訊資料與儲存從DataWorks文檔提供的OSSObject Storage Service建立的HttpFile資料來源中匯入的日誌資料。
在管理中心頁面,單擊進入頁面後單擊新增資料來源。
在新增資料來源對話方塊中,搜尋選擇資料來源類型為OSS。
在新增OSS資料來源對話方塊中,配置各項參數。
參數
描述
資料來源名稱
輸入資料來源的名稱,本樣本為test_g。
資料來源描述
對資料來源進行簡單描述。
Endpoint
輸入
http://oss-cn-shanghai-internal.aliyuncs.comBucket
您準備環境時建立的OSS Bucket的名稱,樣本為dw-emr-demo
訪問模式
RAM角色授權模式
通過STS授權的方式允許雲產品服務帳號扮演相關角色來訪問資料來源,具備更高安全性,詳見:通過RAM角色授權模式配置資料來源。
Access Key模式
AccessKey ID
當前登入帳號的AccessKey ID,您可以進入安全資訊管理頁面複製AccessKey ID。
AccessKey Secret
輸入當前登入帳號的AccessKey Secret。
重要AccessKey Secret只在建立時顯示,不支援後續再次查看,請妥善保管。如果AccessKey泄露或丟失,請刪除並建立新的AccessKey。
說明訪問模式在RAM角色授權模式和Access Key模式選擇其一即可。
單擊指定資源群組連通狀態列的測試連通性,等待介面提示測試完成,連通狀態為可連通。
重要需確保至少一個資源群組為可連通狀態,否則此資料來源無法使用嚮導模式建立同步任務。
單擊完成。
後續步驟
現在,您已經完成了環境的準備,可以繼續下一個教程。在下一個教程中,您將學習如何將使用者基本資料資料、使用者網站訪問日誌資料同步至OSS中,再通過Spark SQL建立外部表格來訪問私人OSS資料存放區。詳情請參見同步資料。