このトピックでは、AI開発者コンソールでTensorFlowトレーニングジョブとcronジョブを送信する方法について説明します。
前提条件
クラウドネイティブAIコンポーネントセットのAI開発コンソールとスケジューリングコンポーネントは、プロフェッショナルKubernetesクラスターにインストールされます。 クラスターはKubernetes 1.20以降を実行する必要があります。
リソースアクセス管理 (RAM) ユーザーは、クラスター管理者によってRAMコンソールに作成されます。 クォータグループが追加され、RAMユーザーに関連付けられます。 詳細については、「手順1: RAMユーザーのクォータグループの作成」をご参照ください。
トレーニングジョブ用にデータセットまたはソースコードリポジトリが構成されています。 詳細については、「トレーニングジョブのデータセットとソースコードリポジトリの構成」をご参照ください。
TensorFlowトレーニングジョブを送信する
AI開発コンソールにログインします。 詳細については、「手順2: AI開発者コンソールへのログイン」をご参照ください。
AI開発者コンソールの左側のナビゲーションウィンドウで、[ジョブの送信] をクリックします。
基本情報セクションで:
[ジョブ名] 、[ジョブの種類] (デフォルトの種類: TF-スタンドアロン) 、名前空間、[実行コマンド] などのパラメーターを設定します。
重要名前空間: クラスター管理者によって割り当てられた名前空間のみを選択できます。 要件に基づいて他のパラメータを設定できます。
オプション: Tensorboardをオンにして、トレーニング結果を視覚化します。
オプション: Cronをオンにしてcronジョブを設定します。
Cron Schedule: 標準のcron式を入力します。 cron式の使用方法の詳細については、「Linuxでcronを使用する方法」をご参照ください。
現在のトレーニングジョブがまだ進行中の場合は、[同時実行ポリシー] ドロップダウンリストから同時実行ポリシーを選択できます。 有効な値:
許可: 新しいトレーニングジョブを作成できます。
Forbid: 現在のトレーニングジョブが終了する前に新しいトレーニングジョブを作成することを禁止します。
Replace: 現在のトレーニングジョブを新しいトレーニングジョブに置き換えます。
履歴レコード制限: cronジョブによって作成されたTensorFlowトレーニングジョブはクラスターに保持されます。 ジョブの保持数が上限を超えた場合, 最も早い時点で作成されたTensorFlowトレーニングジョブは削除されます。
[リソース] セクションで、トレーニングジョブに次のパラメーターを設定します。インスタンス数、イメージ、CPU (コア) (デフォルト値: 4) 、メモリ (GB) (デフォルト値: 8 GB) 、およびGPU (カード番号) (デフォルト値: 0) 。
[事前設定] セクションで、Kubernetesオブジェクトの [ラベル] 、[アノテーション] 、および [NodeSelector] パラメーターを設定します。
[ジョブの送信] をクリックします。
AI開発者コンソールの左側のナビゲーションウィンドウで、[ジョブリスト] をクリックして、ジョブの名前やステータスなど、ジョブに関する情報を表示します。