プロジェクト内で、Shell、Hive、Spark、SparkSQL、MapReduce、Sqoop、Pig および Spark Streaming jobs などのジョブを作成します。
ジョブの作成
- Alibaba Cloud E-MapReduce コンソールにログインします。
- [データプラットフォーム] タブをクリックして[プロジェクト] ページに移動します。
- [操作] 列のターゲットプロジェクトの隣にある [ワークフローの設計] をクリックします。
- ジョブの編集ページの左側で、操作するフォルダを右クリックして [新しいジョブ] を選択します。
- [新しいジョブ] ダイアログボックスで、ジョブの名前と説明を入力して、ジョブタイプを選択します。
ジョブタイプは選択されたら、変更はされません。
- [OK] をクリックします。
注 フォルダを右クリックすることで、サブフォルダの作成、フォルダ名の変更、フォルダの削除もします。
ジョブの開発
さまざまなジョブのタイプについては、ジョブをご参照ください。
注 OSS パスを挿入するときに、ファイルのプレフィックス OSSREF を選択する場合は、OSS ファイルがクラスターにダウンロードされ、クラスパスに追加されます。
- 基本的な設定
ページ右上隅の [ジョブ設定] をクリックして[ジョブ実行設定] ページに移動します。
- [リトライ回数] では、ワークフローの間にジョブが失敗した場合のリトライ回数を設定します。[ジョブの編集] ページでジョブを直接実行する場合は、このオプションは有効にはなりません。
- [失敗のポリシー] では、ワークフローの間にジョブが失敗した場合に、次のジョブを実行するか、現在のワークフローを中断するかを設定します。
- [リソースファイル] については、現在のジョブが依存している JAR パッケージまたは UDF などのリソースを追加する場合は、最初に OSS にリソースをアップロードする必要があります。 アップロード後、ジョブコード内でリソースを直接参照します。
- [パラメーター設定] では、ジョブコード内で参照される変数の値を指定します。${variable name} の形式で、コード内で変数を参照します。 右側のプラスアイコン (+) をクリックしてキーと値を追加します。 キーは変数名で、一方、値は変数の値です。スケジュール時間に従って時間変数のカスタマイズもします。
ルールは以下のとおりです。
- yyyy は年を表します (4 桁の形式です)。
- MM は月を表します。
- dd は日を表します。
- HH24 は時を表します。. 12時間制を使用する場合は、hh と表示されます。
- mm は分を表します。
- ss は秒を表します。
時間変数は yyyy を含む時間の任意の組み合わせです。 時間を進めるためにプラス記号 (+) を、 時間を遅らせるためにマイナス記号 (-) を使用できます。 たとえば、${yyyy-MM-dd} が現在の日付を表す場合は、
- 現在から 1 年後は、${yyyy+1y} または ${yyyy-MM-dd hh:mm:ss+1y} です。
- 現在から 3 か月後は、${yyyyMM+3m} または ${hh:mm:ss yyyy-MM-dd+3m} です。
- 5日前は、${yyyyMMdd-5d} or ${hh:mm:ss yyyy-MM-dd-5d} です。
- 詳細設定
詳細設定を構成するには、ジョブ設定ページの詳細設定タブをクリックします。
- モード: YARN や LOCAL などのジョブ実行モード。 YARN モードでは、ジョブは Launcher により YARN に送信されます。 LOCAL モードでは、ジョブは割り当てられたホストで直接実行されます。
- 環境変数:ジョブを実行するための環境変数を追加するか、ジョブスクリプト内で直接環境変数をエクスポートします。
- スケジューリングパラメータ:YARN キュー、CPU、メモリ、Hadoop ユーザーなどのジョブ構成を設定します。 このパラメーターを設定しない場合、ジョブは Hadoop クラスターのデフォルト値を採用します。
ジョブの実行
ジョブが開発および構成されたら、ジョブを実行するには右上隅にある実行をクリックできます。
ログの表示
ジョブを実行するように設定後、下部にあるレコードの表示タブで実行中のログを確認できます。 ワークフローをクリックして詳細ログページに入ります。 ここでは、ジョブの実行依頼ログや YARN コンテナログなどの情報が表示されます。