Deep Learning Containers (DLC) で分散トレーニングジョブを作成し、実行ステータスを監視し、キーワードでログを検索し、ジョブをクローンまたは削除します。
前提条件
-
Alibaba Cloud アカウント: 追加の権限付与は不要です。
-
RAM ユーザー: RAM ユーザーをワークスペースメンバーとして追加し、必要な権限を持つロールを割り当てます。各ロールの権限については、「付録: ロールと権限のリスト」をご参照ください。
トレーニングジョブの作成
Deep Learning Containers (DLC) タブで、DLC 分散トレーニングジョブを作成します。
-
ジョブ管理ページにアクセスします。
-
PAI コンソールにログインします。
-
左側のナビゲーションウィンドウで、[ワークスペースリスト] をクリックし、ワークスペース名をクリックします。
-
ワークスペースページの左側のナビゲーションウィンドウで、 を選択します。
-
-
Deep Learning Containers (DLC) タブで、[ジョブの作成] をクリックします。
-
パラメーターを設定し、[OK] をクリックします。
パラメーターの説明については、「トレーニングタスクの作成」をご参照ください。
トレーニングジョブの管理
ジョブリストには、DLC、DLC で実行されている Designer アルゴリズムノード、および DLC コマンドラインインターフェイスからのジョブが集約されます。
削除されたジョブは回復できません。
-
①: 名前、ID、期間、フレームワーク、またはステータスでジョブを検索します。
-
②: ジョブ名をクリックして、実行ステータス、インスタンスステータス、リソースビュー、およびログを表示します。
-
③: ステータスアイコンにカーソルを合わせると、実行ステータスが表示されます。
-
④: ジョブを [クローン] するか、[アクション] 列の [TensorBoard] をクリックしてトレーニング結果表示用の TensorBoard インスタンスを作成します。
キーワードによる集約ログのクエリ
クエリログ
[ログ] タブで、キーワードでログイベントをクエリします。
-
左側のナビゲーションウィンドウで、[AI アセット管理] > [ジョブ] を選択します。[Deep Learning Containers (DLC)] ページで、ジョブ名をクリックします。
-
[ログ] タブをクリックし、設定を構成します。
-
[ジョブ情報] の上で、ログ収集の期間を選択します。
説明ログ収集はジョブの終了時間を超える場合があります。要件を満たす期間を選択してください。
-
[インスタンスリスト] で、インスタンスを選択します。
-
検索ボックスに、ログまたはイベントを検索するためのキーワードを入力します。
-
基本的なクエリルール
ログをクエリする際は、完全な単語を使用してください。DLC は、ログ検索に Simple Log Service (SLS) を使用します。これは検索語をトークン化します。用語検索では、キーワードフレーズと完全に一致する結果が見つからない場合があります。
たとえば、キーワード abc def は、正確なフレーズ abc def を含むログに限定されず、abc を含むすべてのログおよび def を含むすべてのログを返します。
あいまい検索ルール
あいまい検索には、アスタリスク (*) と疑問符 (?) を使用します。その他の特殊文字はサポートされていません。
-
アスタリスク (*) は複数の文字に一致します。疑問符 (?) は単一の文字に一致します。
-
アスタリスク (*) または疑問符 (?) は、キーワードの中央または末尾に配置します。ワイルドカードは先頭に配置できません。
たとえば、abc* は abc で始まる用語を検索します。ab?d は、ab で始まり、d で終わり、その間に 1 文字を含む用語を検索します。
あいまい検索中、サービスは Logstore で最大 100 個の一致する用語を検索し、これらの用語を含むログを返します。あいまい検索で 100 個を超える用語に一致する短いプレフィックスを使用すると、結果が不正確になる場合があります。より正確な結果を得るには、より具体的な用語を使用してください。
トークナイザーの制限
SLS は、トレーニングログをトークン化する際に、これらの一般的な文字をデリミタとして扱います。, '";=()[\",\"]{}?@&<>/:
\t\r
デリミタは、クエリのためにログコンテンツをトークンに分割します。デリミタのみで構成されるキーワードは、完全な単語として扱われず、結果を返しません。
例 1: キーワード &&& は、一致するログを見つけません。検索するコンテンツのコンテキストに基づいてキーワードを作成してください。
例 2: a&b を含むログをクエリするには、& の代わりに a&b をキーワードとして使用します。このクエリは、a と b の両方を含むログを返します。より詳細なキーワードは、より正確な結果を生成します。
クエリの例
|
クエリ要件 |
キーワード |
|
Error を含むログ |
Error |
|
loss と acc の両方を含むログ |
loss acc |
|
Traceback に関連するすべてのログ |
Traceback* |
|
abc&def を含むログ |
abc&def |