本文以HIVECLI任務類型為例,為您介紹如何快速使用EMR Workflow。
前提條件
已完成系統角色授權,詳情請參見EMR Workflow角色授權。
已在EMR on ECS頁面建立叢集,詳情請參見建立叢集。
支援的叢集類型為DataLake、Hadoop和Custom。
操作步驟
步驟一:綁定EMR叢集
在左側導覽列,選擇EMR Studio > Workflow。
單擊上方的資訊安全中心頁簽。
在叢集管理頁面,單擊綁定叢集。
在彈出的對話方塊中,選擇相應的叢集類型,叢集ID和交換器ID,單擊確定。
您可以通過重新整理頁面來查看進度,當狀態顯示為已綁定時,表示完成叢集的綁定。
說明綁定叢集大約需要5~10分鐘,請耐心等待。
步驟二:建立專案
單擊上方的專案管理頁簽。
在專案管理頁面,單擊建立專案。
在彈出的對話方塊中,輸入專案名稱,單擊確定。
本文專案名稱以project_test為例。
步驟三:編輯工作流程
在專案管理頁面,單擊建立專案的專案名稱(本文樣本為project_test)。
在左側導覽列,選擇。
在工作流程定義頁面,單擊建立工作流程。
在建立工作流程頁面,拖拽HIVECLI節點塊到畫布中。
本文以HIVECLI任務類型為例。任務類型的詳細資料,請參見任務類型。
在彈出的對話方塊中,設定節點名稱和指令碼,單擊確定。
設定樣本如下表所示,其他參數保持預設值即可。更多參數的說明,請參見HIVECLI。
參數
樣本
節點名稱
hivecli
指令碼
create table if not exists mytable(a string, b int); insert into mytable values ('abc', 1), ('def', 2); select a, sum(b) from mytable group by a;儲存工作流程。
單擊畫布右上方的儲存。
在彈出的對話中,輸入工作流程名稱,單擊確定。
本文工作流程名稱以workflow_test為例。
步驟四:運行工作流程
在工作流程定義頁面,單擊
表徵圖(上線)。單擊
表徵圖(運行)。在彈出的對話方塊中,在執行叢集下拉式清單中選擇在步驟一:綁定EMR叢集中綁定的叢集,單擊確定。
步驟五:查看任務執行個體日誌
在左側導覽列,選擇工作流程>工作流程執行個體,可以查看執行個體的健全狀態。
在左側導覽列,選擇任務>任務執行個體。
在任務執行個體頁面,單擊目標任務名稱操作列的
表徵圖(查看日誌),可以查看任務節點的作業記錄。
(可選)步驟六:下線工作流程
在工作流程定義頁面,單擊目標工作流程動作列的
(下線)。