全部產品
Search
文件中心

E-MapReduce:Hadoop MapReduce作業配置

更新時間:Jul 01, 2024

本文介紹如何配置Hadoop MapReduce類型的作業。

前提條件

已建立好專案,詳情請參見專案管理

操作步驟

  1. 進入資料開發的專案列表頁面。
    1. 通過阿里雲帳號登入阿里雲E-MapReduce控制台
    2. 在頂部功能表列處,根據實際情況選擇地區和資源群組
    3. 單擊上方的資料開發頁簽。
  2. 單擊待編輯專案所在行的作業編輯
  3. 建立Hadoop MapReduce類型作業。
    1. 在頁面左側,在需要操作的檔案夾上單擊右鍵,選擇新增作業
    2. 新增作業對話方塊中,輸入作業名稱作業描述,從作業類型下拉式清單中選擇MR作業類型。
      表示建立的作業是一個Hadoop MapReduce作業。這種類型的作業,實際是通過以下方式提交運行。
      hadoop jar xxx.jar [MainClass] -D xxx ....
    3. 單擊確定
  4. 編輯作業內容。
    1. 作業內容中,填寫提交該作業需要提供的命令列參數。
      填寫的命令列參數需要從hadoop jar命令後的第一個參數開始填寫,即在輸入框中首先填寫運行該作業所需JAR包的所在路徑,再填寫[MainClass]和其它您想要設定的命令列參數。
      例如,您想要提交一個Hadoop的sleep作業,該作業不讀寫任何資料,只提交一些mapper和reducer task到叢集中,且每個task執行時需要 sleep一段時間。在Hadoop(以hadoop-2.6.0版本為例)中,該作業處於Hadoop發行版的hadoop-mapreduce-client-jobclient-2.6.0-tests.jar包檔案中。如果您通過命令列的方式提交該作業,需要執行以下命令。
      hadoop jar /path/to/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar sleep -m 3 -r 3 -mt 100 -rt 100
      而在E-MapReduce中配置這個作業,則應在作業內容輸入框中填寫以下內容。
      /path/to/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar sleep -m 3 -r 3 -mt 100 -rt 100
      說明 您也可以單擊下方的+插入OSS路徑,選擇檔案首碼OSSREF,從檔案路徑中進行瀏覽和選擇,系統會自動補齊OSS上Hadoop MapReduce指令碼的路徑。
    2. 單擊儲存,作業內容編輯完成。
      上面樣本中,sleep作業並沒有資料的輸入輸出,如果作業要讀取資料,並輸出處理結果(例如Wordcount),則需要指定資料的Input和Output路徑。
      您可以讀寫E-MapReduce叢集HDFS或OSS上的資料。如果需要讀寫OSS上的資料,只需要在填寫Input和Output路徑時,將資料路徑寫成OSS上的路徑地址即可。
      jar ossref://emr/checklist/jars/chengtao/hadoop/hadoop-mapreduce-examples-2.6.0.jar randomtextwriter -D mapreduce.randomtextwriter.totalbytes=320000 oss://emr/checklist/data/chengtao/hadoop/Wordcount/Input