全部产品
Search
文档中心

Platform For AI:Perintah yang Digunakan untuk Mengirim Pekerjaan

更新时间:Jun 22, 2025

Anda dapat menggunakan klien Deep Learning Containers (DLC) untuk mengirimkan berbagai jenis pekerjaan pelatihan. Bagian ini menjelaskan perintah yang digunakan untuk mengirimkan pekerjaan pelatihan, termasuk format panggilan, deskripsi parameter, dan contoh penggunaan.

Parameter umum yang digunakan untuk mengirimkan pekerjaan pelatihan

Parameter dalam tabel berikut diperlukan untuk mengirimkan pekerjaan pelatihan menggunakan klien DLC, baik untuk pekerjaan TensorFlow, PyTorch, maupun XGBoost.

Tabel 1. Parameter Umum untuk Mengirim Pekerjaan Pelatihan

Parameter

Diperlukan

Deskripsi

Tipe

Didukung dalam file deskripsi parameter

name

Ya

Nama pekerjaan. Nama tidak harus unik.

STRING

Ya

command

Ya

Perintah yang dijalankan untuk memulai node.

STRING

Ya

data_sources

Tidak

ID dataset terkait. Anda dapat memperoleh ID dataset di halaman Dataset. Untuk informasi lebih lanjut, lihat Buat dan kelola dataset. Pisahkan beberapa sumber data dengan koma (,). Secara default, parameter ini dibiarkan kosong.

STRING

Ya

code_source

Tidak

ID set kode. Anda dapat memperoleh ID set kode di halaman Repositori Kode Sumber. Untuk informasi lebih lanjut, lihat Bangunan Kode. Anda hanya dapat menentukan satu sumber kode. Secara default, parameter ini dibiarkan kosong.

STRING

Ya

code_branch

Tidak

Cabang repositori kode. Parameter ini digunakan bersama dengan parameter code_source.

STRING

Ya

code_commit

Tidak

ID commit repositori kode. Parameter ini digunakan bersama dengan parameter code_source.

STRING

Ya

thirdparty_libs

Tidak

Pustaka Python pihak ketiga. Pisahkan beberapa pustaka dengan koma (,). Secara default, parameter ini dibiarkan kosong.

STRING

Ya

thirdparty_lib_dir

Tidak

Direktori yang berisi file teks bernama requirements.txt. File ini digunakan untuk menginstal pustaka Python pihak ketiga. Secara default, parameter ini dibiarkan kosong.

STRING

Tidak

vpc_id

Tidak

ID virtual private cloud (VPC) yang tersedia untuk pekerjaan. Secara default, parameter ini dibiarkan kosong.

STRING

Ya

switch_id

Tidak (diperlukan jika parameter vpc_id dikonfigurasi)

ID vSwitch yang tersedia untuk pekerjaan di VPC yang ditentukan oleh parameter vpc_id. Secara default, parameter ini dibiarkan kosong.

STRING

Ya

security_group_id

Tidak (diperlukan jika parameter vpc_id dikonfigurasi)

ID grup keamanan yang tersedia untuk pekerjaan di VPC yang ditentukan oleh parameter vpc_id. Secara default, parameter ini dibiarkan kosong.

STRING

Ya

job_file

Tidak

File deskripsi parameter pekerjaan. Jika parameter ini ditentukan, parameter yang dijelaskan dalam file tersebut akan diutamakan. Tentukan parameter dalam file deskripsi dalam format key=value. Kunci-kuncinya sama dengan kunci parameter yang digunakan dalam klien.

STRING

Tidak

interactive

Tidak

Menentukan apakah akan memulai pekerjaan dalam mode interaktif.

BOOL

Ya

job_max_running_time_minutes

Tidak

Waktu maksimum pekerjaan berjalan. Nilai defaultnya adalah 0, yang menunjukkan bahwa waktu aktif pekerjaan tidak terbatas.

INT64

Ya

success_policy

Tidak

Hanya pekerjaan TensorFlow yang didukung. Nilai valid:

  • ChiefWorker: Pekerjaan selesai jika pod pada node chief dihentikan.

  • AllWorkers: Pekerjaan selesai hanya jika pod pada semua node dihentikan.

Secara default, parameter ini dibiarkan kosong, yang setara dengan AllWorkers.

STRING

Ya

envs

Tidak

Variabel lingkungan untuk node worker. Pisahkan variabel lingkungan dengan koma (,). Pisahkan kunci dan nilai dalam variabel lingkungan dengan tanda sama dengan (=). Konfigurasikan variabel lingkungan dalam format key1=value1,key2=value2.

StringToString

Ya

tags

Tidak

Tag yang ingin Anda tambahkan ke pekerjaan. Pisahkan tag dengan koma (,). Pisahkan kunci dan nilai dalam tag dengan tanda sama dengan (=). Konfigurasikan variabel lingkungan dalam format key1=value1,key2=value2.

StringToString

Ya

oversold_type

Tidak

Cara menggunakan sumber daya komputasi jam off-peak untuk pekerjaan. Nilai valid:

  • AcceptQuotaOverSold: Sumber daya komputasi jam off-peak dapat digunakan untuk pekerjaan.

  • ForceQuotaOverSold: Hanya sumber daya komputasi jam off-peak yang dapat digunakan untuk pekerjaan.

  • ForbiddenQuotaOverSold: Hanya sumber daya dalam kuota terkait yang dapat digunakan untuk pekerjaan. Sumber daya komputasi jam off-peak tidak dapat digunakan untuk pekerjaan.

STRING

Ya

driver

Tidak

Versi driver GPU yang digunakan untuk pekerjaan.

STRING

Ya

default_route

Tidak

Metode untuk mengakses Internet jika Anda memilih virtual private cloud (VPC). Nilai valid:

  • eth0 (default): Gateway publik digunakan untuk mengakses Internet.

  • eth1: Gateway khusus digunakan untuk mengakses Internet melalui VPC yang dipilih.

STRING

Ya

priority

Tidak

Prioritas pekerjaan. Nilai valid: 1 hingga 9. Nilai default: 1.

  • Nilai 1 menunjukkan prioritas terendah.

  • Nilai 9 menunjukkan prioritas tertinggi.

INT32

Ya

exit_code_on_stopped

Tidak

Kode keluar CML saat tugas yang dijalankan dalam mode interaktif dihentikan. Nilai default: 0.

INT32

Ya

job_reserved_minutes

Tidak

Periode retensi setelah tugas selesai. Unit: menit. Nilai default: 0.

INT32

Ya

job_reserved_policy

Tidak

Kebijakan yang digunakan untuk mempertahankan tugas. Nilai valid:

  • Always (default): Tugas dipertahankan terlepas dari apakah tugas berhasil atau gagal.

  • OnFailure: Tugas dipertahankan jika tugas gagal.

  • OnSucceed: Tugas dipertahankan jika tugas berhasil.

STRING

Ya

Mengirim Pekerjaan Pelatihan TensorFlow

  • Deskripsi Fitur

    Mengirim pekerjaan pelatihan TensorFlow.

  • Sintaks

    Gunakan perintah dengan parameter terkait atau file deskripsi parameter untuk mengirim pekerjaan pelatihan TensorFlow.

    ./dlc submit tfjob [flags]
  • Deskripsi Parameter

    Jika menggunakan perintah dengan parameter terkait, sertakan kunci parameter beserta nilai aktualnya. Jika menggunakan file deskripsi parameter, tentukan parameter dalam format <parameterName>=<parameterValue>. Parameter umum dijelaskan dalam bagian "Parameter Umum untuk Mengirim Pekerjaan Pelatihan". Tabel berikut mencantumkan parameter spesifik untuk pekerjaan TensorFlow.

    Tabel 2. Parameter Spesifik untuk Pekerjaan TensorFlow

    Parameter

    Diperlukan

    Deskripsi

    Tipe

    Didukung dalam file deskripsi parameter

    workspace_id

    Ya

    ID ruang kerja yang digunakan untuk mengirim pekerjaan. Secara default, parameter ini dibiarkan kosong. Untuk informasi tentang cara membuat ruang kerja, lihat Buat dan kelola ruang kerja.

    STRING

    Ya

    chief

    Tidak

    Menentukan apakah akan memulai node chief. Nilai default: false. Nilai valid:

    • false: tidak memulai node chief.

    • true: memulai node chief.

    BOOL

    Ya

    chief_image

    Tidak

    Gambar node chief. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    chief_spec

    Tidak

    Tipe node dari node chief. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_image

    Tidak

    Gambar node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_spec

    Tidak

    Tipe node dari node master.

    STRING

    Ya

    masters

    Tidak

    Jumlah node master. Nilai default: 0.

    INT

    Ya

    ps

    Tidak

    Jumlah server parameter. Nilai default: 0.

    INT

    Ya

    ps_image

    Tidak

    Gambar server parameter. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    ps_spec

    Tidak

    Tipe node dari server parameter. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_image

    Tidak

    Gambar node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_spec

    Tidak

    Tipe node dari node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    workers

    Tidak

    Jumlah node worker. Nilai default: 0.

    INT

    Ya

    evaluator_image

    Tidak

    Gambar node evaluator. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    evaluator_spec

    Tidak

    Tipe node dari node evaluator. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    evaluators

    Tidak

    Jumlah node evaluator. Nilai default: 0.

    INT

    Ya

    graphlearn_image

    Tidak

    Gambar node GraphLearn. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    graphlearn_spec

    Tidak

    Tipe node dari node GraphLearn. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    graphlearns

    Tidak

    Jumlah node GraphLearn. Nilai default: 0.

    INT

    Ya

    Tabel 3. Parameter Spesifik untuk Mengirim Pekerjaan TensorFlow ke Grup Sumber Daya Khusus

    Parameter

    Diperlukan

    Deskripsi

    Tipe

    Didukung dalam file deskripsi parameter

    resource_id

    Tidak (diperlukan jika Anda ingin mengirim pekerjaan ke grup sumber daya khusus)

    ID kuota sumber daya khusus. Secara default, parameter ini dibiarkan kosong. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya khusus, lihat Kuota sumber daya komputasi umum.

    STRING

    Ya

    priority

    Tidak

    Prioritas pekerjaan. Nilai default: 1.

    INT

    Ya

    chief_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    chief_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    chief_gpu_type

    Tidak

    Tipe GPU yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.

    STRING

    Ya

    chief_memory

    Tidak

    Jumlah memori yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    chief_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh node chief. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    master_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_gpu_type

    Tidak

    Tipe GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.

    STRING

    Ya

    master_memory

    Tidak

    Jumlah memori yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    master_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    *_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.

    STRING

    Ya

    *_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.

    STRING

    Ya

    *_gpu_type

    Tidak

    Tipe GPU dari tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Contoh: GU50. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.

    STRING

    Ya

    *_memory

    Tidak

    Jumlah memori yang digunakan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.

    STRING

    Ya

    *_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.

    STRING

    Ya

  • Contoh

    • Jalankan perintah untuk mengirim pekerjaan dengan dua node worker dan satu server parameter.

      ./dlc submit tfjob --name=test_2021 --ps=1 \
        --ps_spec=ecs.g6.8xlarge \
        --ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \
        --workers=2 \
        --worker_spec=ecs.g6.4xlarge \
        --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \
        --command="python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/" \
        --workspace_id=***** \
        --data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx

      Sistem menampilkan keluaran serupa dengan berikut:

      +----------------------------------+--------------------------------------+
      |              JobId               |              RequestId               |
      +----------------------------------+--------------------------------------+
      | dlcmp6vwljkz****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
      +----------------------------------+--------------------------------------+
    • Gunakan file deskripsi parameter untuk mengirim pekerjaan dengan dua node worker dan satu server parameter.

      ./dlc submit tfjob --job_file=job_file.dist_mnist.1ps2w

      job_file.dist_mnist.1ps2w adalah file deskripsi parameter dengan format <parameterName>=<parameterValue>. File job_file.dist_mnist.1ps2w berisi konten berikut:

      name=test_2021
      workers=2
      worker_spec=ecs.g6.4xlarge
      worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04
      ps=1
      ps_spec=ecs.g6.8xlarge
      ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04
      command=python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/
      workspace_id=*****
      data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx

Mengirim Pekerjaan Pelatihan PyTorch

  • Deskripsi Fitur

    Mengirim pekerjaan pelatihan PyTorch.

  • Sintaks

    Gunakan perintah dengan parameter terkait atau file deskripsi parameter untuk mengirim pekerjaan pelatihan PyTorch.

    ./dlc submit pytorchjob [flags]
  • Deskripsi Parameter

    Jika menggunakan perintah dengan parameter terkait, sertakan kunci parameter beserta nilai aktualnya. Jika menggunakan file deskripsi parameter, tentukan parameter dalam format <parameterName>=<parameterValue>. Parameter umum dijelaskan dalam bagian "Parameter Umum untuk Mengirim Pekerjaan Pelatihan". Tabel berikut mencantumkan parameter spesifik untuk pekerjaan PyTorch.

    Tabel 4. Parameter Spesifik untuk Pekerjaan PyTorch

    Parameter

    Diperlukan

    Deskripsi

    Tipe

    Didukung dalam file deskripsi parameter

    workspace_id

    Ya

    ID ruang kerja yang digunakan untuk mengirim pekerjaan. Secara default, parameter ini dibiarkankosong. Untuk informasi tentang cara membuat ruang kerja, lihat Buat dan kelola ruang kerja.

    STRING

    Ya

    master_image

    Tidak

    Gambar node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_spec

    Tidak

    Tipe node dari node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    masters

    Tidak

    Jumlah node master. Nilai default: 0.

    INT

    Ya

    worker_image

    Tidak

    Gambar node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_spec

    Tidak

    Tipe node dari node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    workers

    Tidak

    Jumlah node worker. Nilai default: 0.

    INT

    Ya

    Tabel 5. Parameter Spesifik untuk Mengirim Pekerjaan PyTorch ke Grup Sumber Daya Khusus

    Parameter

    Diperlukan

    Deskripsi

    Tipe

    Didukung dalam file deskripsi parameter

    resource_id

    Tidak (diperlukan jika Anda ingin mengirim pekerjaan ke grup sumber daya khusus)

    ID kuota sumber daya khusus. Secara default, parameter ini dibiarkan kosong. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya khusus, lihat Kuota sumber daya komputasi umum.

    STRING

    Ya

    priority

    Tidak

    Prioritas pekerjaan. Jumlah thread yang digunakan oleh komponen. Nilai default: 1.

    INT

    Ya

    master_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_gpu_type

    Tidak

    Tipe GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.

    STRING

    Ya

    master_memory

    Tidak

    Jumlah memori yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    master_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    worker_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_gpu_type

    Tidak

    Tipe GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.

    STRING

    Ya

    worker_memory

    Tidak

    Jumlah memori yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    worker_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

  • Contoh

    Jalankan perintah untuk mengirim pekerjaan pelatihan model GPU.

    ./dlc submit pytorchjob --name=test_pt_face \
      --workers=1 \
      --worker_spec=ecs.gn6e-c12g1.3xlarge \
      --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 \
      --command="apt-get update; apt-get -y --allow-downgrades install libpcre3=2:8.38-3.1 libpcre3-dev libgl1-mesa-glx libglib2.0-dev; cd /root/data/face; python train.py --num_workers 0 --save_folder outputs" \
      --data_sources=data-20210410224621-xxxxxxxxxxxx \
      --workspace_id=*****

    Sistem menampilkan keluaran serupa dengan berikut:

    +----------------------------------+--------------------------------------+
    |              JobId               |              RequestId               |
    +----------------------------------+--------------------------------------+
    | dlcu704xxuxk****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
    +----------------------------------+--------------------------------------+

Mengirim Pekerjaan Pelatihan XGBoost

  • Deskripsi Fitur

    Mengirim pekerjaan pelatihan XGBoost.

  • Sintaks

    Gunakan perintah dengan parameter terkait atau file deskripsi parameter untuk mengirim pekerjaan pelatihan XGBoost.

    ./dlc submit xgboostjob [flags]
  • Deskripsi Parameter

    Jika menggunakan perintah dengan parameter terkait, sertakan kunci parameter beserta nilai aktualnya. Jika menggunakan file deskripsi parameter, tentukan parameter dalam format <parameterName>=<parameterValue>. Parameter umum dijelaskan dalam bagian "Parameter Umum untuk Mengirim Pekerjaan Pelatihan". Tabel berikut mencantumkan parameter spesifik untuk pekerjaan XGBoost.

    Tabel 6. Parameter Spesifik untuk Pekerjaan XGBoost

    Parameter

    Diperlukan

    Deskripsi

    Tipe

    Didukung dalam file deskripsi parameter

    workspace_id

    Ya

    ID ruang kerja yang digunakan untuk mengirim pekerjaan. Secara default, parameter ini dibiarkan kosong. Untuk informasi tentang cara membuat ruang kerja, lihat Buat dan kelola ruang kerja.

    STRING

    Ya

    master_image

    Tidak

    Gambar node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_spec

    Tidak

    Tipe node dari node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    masters

    Tidak

    Jumlah node master. Nilai default: 0.

    INT

    Ya

    worker_image

    Tidak

    Gambar node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_spec

    Tidak

    Tipe node dari node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    workers

    Tidak

    Jumlah node worker. Nilai default: 0.

    INT

    Ya

    Tabel 7. Parameter Spesifik untuk Mengirim Pekerjaan XGBoost ke Grup Sumber Daya Khusus

    Parameter

    Diperlukan

    Deskripsi

    Tipe

    Didukung dalam file deskripsi parameter

    resource_id

    Tidak (diperlukan jika Anda ingin mengirim pekerjaan ke grup sumber daya khusus)

    ID kuota sumber daya khusus. Secara default, parameter ini dibiarkan kosong. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya khusus, lihat Kuota sumber daya komputasi umum.

    STRING

    Ya

    priority

    Tidak

    Prioritas pekerjaan. Jumlah thread yang digunakan oleh komponen. Nilai default: 1.

    INT

    Ya

    master_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    master_gpu_type

    Tidak

    Jenis GPU yang digunakan oleh Node master. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.

    STRING

    Ya

    master_memory

    Tidak

    Jumlah memori yang digunakan oleh Node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    master_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    worker_cpu

    Tidak

    Jumlah core CPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_gpu

    Tidak

    Jumlah core GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.

    STRING

    Ya

    worker_gpu_type

    Tidak

    Tipe GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.

    STRING

    Ya

    worker_memory

    Tidak

    Jumlah memori yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

    worker_shared_memory

    Tidak

    Jumlah memori yang dibagikan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.

    STRING

    Ya

  • Contoh

    Jalankan perintah untuk mengirim pekerjaan pelatihan XGBoost.

    ./dlc submit xgboostjob --name=test_xgboost \
      --workers=1 \
      --worker_spec=ecs.gn6e-c12g1.3xlarge \
      --worker_image=xgboost-training:1.6.0-cpu-py36-ubuntu18.04 \
      --command="python /root/code/horovod/xgboost/main.py --job_type=Train --xgboost_parameter=objective:multi:softprob,num_class:3 --n_estimators=50 --model_path=autoAI/xgb-opt/2" \
      --workspace_id=*****

    Sistem menampilkan keluaran serupa dengan berikut:

    +----------------------------------+--------------------------------------+
    |              JobId               |              RequestId               |
    +----------------------------------+--------------------------------------+
    | dlc1nvu3gli0****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
    +----------------------------------+--------------------------------------+

Parameter lanjutan yang digunakan untuk mengirim pekerjaan pelatihan

Tentukan node saat mengirim pekerjaan

Konfigurasikan parameter untuk menentukan node saat mengirim pekerjaan pelatihan dengan kuota komputasi umum atau Lingjun menggunakan klien DLC.

null

Fitur ini hanya tersedia untuk pengguna dalam daftar putih. Hubungi manajer akun Anda untuk menambahkan akun Anda ke daftar putih.

  • Parameter

    Parameter

    Deskripsi

    Contoh

    --allow_nodes="${allow_nodes}"

    Daftar node yang diizinkan. Beberapa mode dipisahkan dengan koma (,). Kami sarankan agar tidak menyertakan spasi di antaranya.

    lingjuc47iextvg9-***,lingjuc47iextvg9-***

    --deny_nodes="${deny_nodes}"

    Daftar node yang ditolak. Beberapa mode dipisahkan dengan koma (,). Kami sarankan agar tidak menyertakan spasi di antaranya.

    lingjuc47iextvg9-***,lingjuc47iextvg9-***

  • Contoh

    Parameter baris perintah

    Contoh perintah:

    • Tidak ada node yang ditentukan

      ./dlc submit pytorchjob --name=assign_node_test_no_node  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi'  
    • Tentukan node yang diizinkan

      ./dlc submit pytorchjob --name=assign_node_test_2_allow_nodes  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id=**** \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
    • Tentukan node yang ditolak

       ./dlc submit pytorchjob --name=assign_node_test_two_deny_nodes  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id=**** \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
    • Tentukan node yang diizinkan dan ditolak

      ./dlc submit pytorchjob --name=assign_node_test_two_allow_two_deny  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id=**** \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" \
          --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"

    Baca file

    • Contoh perintah:

      ./dlc submit pytorchjob -f job_file
    • Contoh file konfigurasi parameter pekerjaan, job_file:

      • Tidak ada node yang ditentukan

        name=assign_node_test_no_node
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        
      • Tentukan node yang diizinkan

        name=assign_node_test_2_allow_nodes
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        
      • Tentukan node yang dilarang

        name=assign_node_test_two_allow_two_deny
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        
      • Tentukan node yang diizinkan dan dilarang

        name=assign_node_test_two_allow_two_deny
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        

Nonaktifkan pemeriksaan inventaris bayar sesuai pemakaian saat mengirimkan pekerjaan

Konfigurasikan parameter disable_ecs_stock_check untuk menonaktifkan pemeriksaan inventaris bayar sesuai pemakaian saat mengirim pekerjaan pelatihan menggunakan klien DLC.

  • Parameter

    Parameter

    Deskripsi

    Contoh

    disable_ecs_stock_check

    Apakah akan menonaktifkan pemeriksaan inventaris bayar sesuai pemakaian. Nilai yang valid:

    • false (default): Aktifkan pemeriksaan inventaris bayar sesuai pemakaian.

    • true: Nonaktifkan pemeriksaan inventaris bayar sesuai pemakaian.

    true atau false

  • Contoh

    Parameter baris perintah

    Contoh perintah:

    • Aktifkan pemeriksaan inventaris bayar sesuai pemakaian

      ./dlc submit pytorchjob \
          --name=test_skip_checking3 \
          --command='sleep 1000' \
          --workspace_id=**** \
          --priority=1 \
          --workers=1 \
          --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 \
          --worker_spec=ecs.g6.xlarge  
    • Nonaktifkan pemeriksaan inventaris bayar sesuai pemakaian

      ./dlc submit pytorchjob \
          --name=test_skip_checking3 \
          --command='sleep 1000' \
          --workspace_id=**** \
          --priority=1 \
          --workers=1 \
          --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 \
          --worker_spec=ecs.g6.xlarge \
          --disable_ecs_stock_check=true
       

    Baca file

    Contoh perintah:

    ./dlc submit pytorchjob -f job_file

    Contoh file konfigurasi parameter pekerjaan, job_file:

    • Aktifkan pemeriksaan inventaris bayar sesuai pemakaian

      name=test_skip_checking3
      workers=1
      worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04
      command=sleep 1000
      workspace_id=****
      worker_spec=ecs.g6.xlarge
      
    • Nonaktifkan pemeriksaan inventaris bayar sesuai pemakaian

      name=test_skip_checking3
      workers=1
      worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04
      command=sleep 1000
      workspace_id=****
      worker_spec=ecs.g6.xlarge
      disable_ecs_stock_check=true
      

Referensi