すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:PAI-TensorFlow タスクのパラメーター

最終更新日:Apr 01, 2026

Platform for AI (PAI) は、シングルノードおよび分散トレーニングをサポートする PAI-TensorFlow 深層学習フレームワークを提供します。このリファレンスでは、PAI-TensorFlow タスクを実行するためのコマンドパラメーターと I/O パラメーターについて説明します。

警告

GPU 搭載サーバーは段階的に廃止されます。TensorFlow タスクは CPU サーバーでのみ送信する必要があります。GPU インスタンスでモデルをトレーニングするには、代わりに Deep Learning Containers (DLC) を使用してください。詳細については、「トレーニングジョブの送信」をご参照ください。

コマンドとパラメーター

PAI-TensorFlow タスクは、次のいずれかのインターフェイスから実行します。

  • MaxCompute クライアント

  • DataWorks コンソールの SQL ノード

  • PAI コンソールの Machine Learning Designer ページ

  • Machine Learning Designer の TensorFlow コンポーネント

すべてのタスクで同じ PAI コマンド構文を使用します。

pai -name tensorflow1120_ext
    -project algo_public
    -Dscript= 'oss://<bucket_name>.<oss_host>.aliyuncs.com/*.tar.gz'
    -DentryFile='entry_file.py'
    -Dbuckets='oss://<bucket_name>.<oss_host>.aliyuncs.com/<path>'
    -Dtables='odps://prj_name/tables/table_name'
    -Doutputs='odps://prj_name/tables/table_name'
    -DcheckpointDir='oss://<bucket_name>.<oss_host>.aliyuncs.com/<path>'
    -Dcluster="{\"ps\":{\"count\":1},\"worker\":{\"count\":2,\"gpu\":100}}"
    -Darn="acs:ram::******:role/aliyunodpspaidefaultrole"
    -DossHost="oss-cn-beijing-internal.aliyuncs.com"
重要

nameproject パラメーターには固定値 (tensorflow1120_extalgo_public) があり、変更できません。

次の表に、すべてのコマンドパラメーターを示します。

パラメーター説明デフォルト必須
scriptタスク用の TensorFlow アルゴリズムスクリプトです。受け入れられるフォーマット:file:///path/to/file (絶対ローカルパス)、project_name/resources/resource_nameoss://..aliyuncs.com/.tar.gz、または oss://..aliyuncs.com/*.py。スクリプトは、ローカルファイル、ローカル TAR パッケージ (.tar.gz、gzip 圧縮)、または Python ファイルを指定できます。oss://demo-yuze.oss-cn-beijing-internal.aliyuncs.com/deepfm/deepfm.tar.gzなしはい
entryFileエントリスクリプトです。script が TAR パッケージを指している場合に必要です。script が単一ファイルの場合、このパラメーターは不要です。main.py単一ファイルのスクリプトでは不要はい
buckets入力 OSS バケットです。複数のバケットはコンマで区切ります。各バケットパスの末尾にはスラッシュ (/) を付ける必要があります。oss://..aliyuncs.com/なしいいえ
tables入力 MaxCompute テーブルです。複数のテーブルはコンマで区切ります。odps:///tables/なしいいえ
outputs出力 MaxCompute テーブルです。複数のテーブルはコンマで区切ります。odps:///tables/なしいいえ
gpuRequiredスタンドアロントレーニング用の GPU 数です。100 = 1 GPU、200 = 2 GPU。0 に設定すると CPU のみを使用します。分散トレーニングの場合は、代わりに cluster パラメーターで GPU を構成します。TensorFlow 1120 でのみ利用可能です。100なしいいえ
checkpointDirTensorFlow のチェックポイントを格納する OSS パスです。oss://..aliyuncs.com/なしいいえ
cluster分散トレーニングの構成を、エスケープされた JSON 文字列として指定します。詳細については、「クラスターパラメーター」をご参照ください。{\"ps\":{\"count\":1},\"worker\":{\"count\":2,\"gpu\":100}}なしいいえ
enableDynamicCluster個々のワーカーノードのフェールオーバーを有効にするかどうかを指定します。true に設定すると、失敗したワーカーノードが自動的に再起動し、タスクを続行できます。有効な値:truefalsefalsefalseいいえ
jobName実験の名前です。履歴データの検索やパフォーマンス分析を有効にするために、(test ではなく) 説明的な名前を使用してください。jk_wdl_online_jobなしはい
maxHungTimeBeforeGCInSecondsGPU が自動再利用される前に一時停止できる最大時間 (秒) です。0 に設定すると、自動再利用は無効になります。36003600いいえ
ossHostOSS エンドポイントです。有効な値については、「リージョンとエンドポイント」をご参照ください。oss-cn-beijing-internal.aliyuncs.comなしいいえ

クラスターパラメーター

cluster パラメーターを使用して、パラメータサーバー (PS) とワーカーにまたがる分散トレーニングを構成します。値は、引用符がエスケープされた JSON オブジェクトである必要があります。例:

{
  "ps": {
    "count": 2
  },
  "worker": {
    "count": 4
  }
}

JSON オブジェクトは、ps (パラメータサーバー) と worker の 2 つのキーをサポートします。各キーは、次のサブパラメーターを受け入れます。

パラメーター説明デフォルト必須
countPS またはワーカーの数です。なしはい
gpuPS またはワーカーあたりの GPU 数です。100 = 1 GPU。worker の下で 0 に設定すると、GPU を消費しない CPU クラスターを使用します。0、ワーカーの場合は 100いいえ
cpuPS またはワーカーあたりの CPU コア数です。100 = 1 CPU コア。600いいえ
memoryPS またはワーカーあたりのメモリ (MB) です。100 = 100 MB。30000いいえ

I/O パラメーター

次の表に、PAI-TensorFlow タスクの I/O パラメーターを示します。

パラメーター説明
tablesデータの読み取り元となる MaxCompute テーブルのパスです。
outputsデータの書き込み先となる MaxCompute テーブルのパスです。複数のパスはコンマで区切ります。パスのフォーマット:- 非パーティションテーブル:odps://<prj_name>/tables/<table_name> - パーティションテーブル:odps://<proj_name>/tables/<table_name>/<pt_key1=v1> - 複数レベルのパーティションテーブル:odps://<prj_name>/tables/<table_name>/<pt_key1=v1>/<pt_key2=v2>
bucketsアルゴリズムが読み取るオブジェクトを格納する OSS バケットです。OSS から読み取るには、role_arn および host パラメーターが必要です。role_arn の値を取得するには、PAI コンソールに移動し、[依存サービス] に移動して、 セクションで [OSS][デザイナー][権限の表示] を見つけ、 をクリックします。詳細については、「Machine Learning Designer の使用に必要な権限の付与」をご参照ください。
checkpointDir出力データを書き込む OSS バケットのパスです。