Anda dapat menggunakan klien Deep Learning Containers (DLC) untuk mengirimkan berbagai jenis pekerjaan pelatihan. Bagian ini menjelaskan perintah yang digunakan untuk mengirimkan pekerjaan pelatihan, termasuk format panggilan, deskripsi parameter, dan contoh penggunaan.
Parameter umum yang digunakan untuk mengirimkan pekerjaan pelatihan
Parameter dalam tabel berikut diperlukan untuk mengirimkan pekerjaan pelatihan menggunakan klien DLC, baik untuk pekerjaan TensorFlow, PyTorch, maupun XGBoost.
Tabel 1. Parameter Umum untuk Mengirim Pekerjaan Pelatihan
Parameter | Diperlukan | Deskripsi | Tipe | Didukung dalam file deskripsi parameter |
name | Ya | Nama pekerjaan. Nama tidak harus unik. | STRING | Ya |
command | Ya | Perintah yang dijalankan untuk memulai node. | STRING | Ya |
data_sources | Tidak | ID dataset terkait. Anda dapat memperoleh ID dataset di halaman Dataset. Untuk informasi lebih lanjut, lihat Buat dan kelola dataset. Pisahkan beberapa sumber data dengan koma (,). Secara default, parameter ini dibiarkan kosong. | STRING | Ya |
code_source | Tidak | ID set kode. Anda dapat memperoleh ID set kode di halaman Repositori Kode Sumber. Untuk informasi lebih lanjut, lihat Bangunan Kode. Anda hanya dapat menentukan satu sumber kode. Secara default, parameter ini dibiarkan kosong. | STRING | Ya |
code_branch | Tidak | Cabang repositori kode. Parameter ini digunakan bersama dengan parameter code_source. | STRING | Ya |
code_commit | Tidak | ID commit repositori kode. Parameter ini digunakan bersama dengan parameter code_source. | STRING | Ya |
thirdparty_libs | Tidak | Pustaka Python pihak ketiga. Pisahkan beberapa pustaka dengan koma (,). Secara default, parameter ini dibiarkan kosong. | STRING | Ya |
thirdparty_lib_dir | Tidak | Direktori yang berisi file teks bernama requirements.txt. File ini digunakan untuk menginstal pustaka Python pihak ketiga. Secara default, parameter ini dibiarkan kosong. | STRING | Tidak |
vpc_id | Tidak | ID virtual private cloud (VPC) yang tersedia untuk pekerjaan. Secara default, parameter ini dibiarkan kosong. | STRING | Ya |
switch_id | Tidak (diperlukan jika parameter vpc_id dikonfigurasi) | ID vSwitch yang tersedia untuk pekerjaan di VPC yang ditentukan oleh parameter vpc_id. Secara default, parameter ini dibiarkan kosong. | STRING | Ya |
security_group_id | Tidak (diperlukan jika parameter vpc_id dikonfigurasi) | ID grup keamanan yang tersedia untuk pekerjaan di VPC yang ditentukan oleh parameter vpc_id. Secara default, parameter ini dibiarkan kosong. | STRING | Ya |
job_file | Tidak | File deskripsi parameter pekerjaan. Jika parameter ini ditentukan, parameter yang dijelaskan dalam file tersebut akan diutamakan. Tentukan parameter dalam file deskripsi dalam format | STRING | Tidak |
interactive | Tidak | Menentukan apakah akan memulai pekerjaan dalam mode interaktif. | BOOL | Ya |
job_max_running_time_minutes | Tidak | Waktu maksimum pekerjaan berjalan. Nilai defaultnya adalah 0, yang menunjukkan bahwa waktu aktif pekerjaan tidak terbatas. | INT64 | Ya |
success_policy | Tidak | Hanya pekerjaan TensorFlow yang didukung. Nilai valid:
Secara default, parameter ini dibiarkan kosong, yang setara dengan AllWorkers. | STRING | Ya |
envs | Tidak | Variabel lingkungan untuk node worker. Pisahkan variabel lingkungan dengan koma (,). Pisahkan kunci dan nilai dalam variabel lingkungan dengan tanda sama dengan (=). Konfigurasikan variabel lingkungan dalam format | StringToString | Ya |
tags | Tidak | Tag yang ingin Anda tambahkan ke pekerjaan. Pisahkan tag dengan koma (,). Pisahkan kunci dan nilai dalam tag dengan tanda sama dengan (=). Konfigurasikan variabel lingkungan dalam format | StringToString | Ya |
oversold_type | Tidak | Cara menggunakan sumber daya komputasi jam off-peak untuk pekerjaan. Nilai valid:
| STRING | Ya |
driver | Tidak | Versi driver GPU yang digunakan untuk pekerjaan. | STRING | Ya |
default_route | Tidak | Metode untuk mengakses Internet jika Anda memilih virtual private cloud (VPC). Nilai valid:
| STRING | Ya |
priority | Tidak | Prioritas pekerjaan. Nilai valid: 1 hingga 9. Nilai default: 1.
| INT32 | Ya |
exit_code_on_stopped | Tidak | Kode keluar CML saat tugas yang dijalankan dalam mode interaktif dihentikan. Nilai default: 0. | INT32 | Ya |
job_reserved_minutes | Tidak | Periode retensi setelah tugas selesai. Unit: menit. Nilai default: 0. | INT32 | Ya |
job_reserved_policy | Tidak | Kebijakan yang digunakan untuk mempertahankan tugas. Nilai valid:
| STRING | Ya |
Mengirim Pekerjaan Pelatihan TensorFlow
Deskripsi Fitur
Mengirim pekerjaan pelatihan TensorFlow.
Sintaks
Gunakan perintah dengan parameter terkait atau file deskripsi parameter untuk mengirim pekerjaan pelatihan TensorFlow.
./dlc submit tfjob [flags]Deskripsi Parameter
Jika menggunakan perintah dengan parameter terkait, sertakan kunci parameter beserta nilai aktualnya. Jika menggunakan file deskripsi parameter, tentukan parameter dalam format
<parameterName>=<parameterValue>. Parameter umum dijelaskan dalam bagian "Parameter Umum untuk Mengirim Pekerjaan Pelatihan". Tabel berikut mencantumkan parameter spesifik untuk pekerjaan TensorFlow.Tabel 2. Parameter Spesifik untuk Pekerjaan TensorFlow
Parameter
Diperlukan
Deskripsi
Tipe
Didukung dalam file deskripsi parameter
workspace_id
Ya
ID ruang kerja yang digunakan untuk mengirim pekerjaan. Secara default, parameter ini dibiarkan kosong. Untuk informasi tentang cara membuat ruang kerja, lihat Buat dan kelola ruang kerja.
STRING
Ya
chief
Tidak
Menentukan apakah akan memulai node chief. Nilai default: false. Nilai valid:
false: tidak memulai node chief.
true: memulai node chief.
BOOL
Ya
chief_image
Tidak
Gambar node chief. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
chief_spec
Tidak
Tipe node dari node chief. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_image
Tidak
Gambar node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_spec
Tidak
Tipe node dari node master.
STRING
Ya
masters
Tidak
Jumlah node master. Nilai default: 0.
INT
Ya
ps
Tidak
Jumlah server parameter. Nilai default: 0.
INT
Ya
ps_image
Tidak
Gambar server parameter. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
ps_spec
Tidak
Tipe node dari server parameter. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_image
Tidak
Gambar node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_spec
Tidak
Tipe node dari node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
workers
Tidak
Jumlah node worker. Nilai default: 0.
INT
Ya
evaluator_image
Tidak
Gambar node evaluator. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
evaluator_spec
Tidak
Tipe node dari node evaluator. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
evaluators
Tidak
Jumlah node evaluator. Nilai default: 0.
INT
Ya
graphlearn_image
Tidak
Gambar node GraphLearn. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
graphlearn_spec
Tidak
Tipe node dari node GraphLearn. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
graphlearns
Tidak
Jumlah node GraphLearn. Nilai default: 0.
INT
Ya
Tabel 3. Parameter Spesifik untuk Mengirim Pekerjaan TensorFlow ke Grup Sumber Daya Khusus
Parameter
Diperlukan
Deskripsi
Tipe
Didukung dalam file deskripsi parameter
resource_id
Tidak (diperlukan jika Anda ingin mengirim pekerjaan ke grup sumber daya khusus)
ID kuota sumber daya khusus. Secara default, parameter ini dibiarkan kosong. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya khusus, lihat Kuota sumber daya komputasi umum.
STRING
Ya
priority
Tidak
Prioritas pekerjaan. Nilai default: 1.
INT
Ya
chief_cpu
Tidak
Jumlah core CPU yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
chief_gpu
Tidak
Jumlah core GPU yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
chief_gpu_type
Tidak
Tipe GPU yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.
STRING
Ya
chief_memory
Tidak
Jumlah memori yang digunakan oleh node chief. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
chief_shared_memory
Tidak
Jumlah memori yang dibagikan oleh node chief. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
master_cpu
Tidak
Jumlah core CPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_gpu
Tidak
Jumlah core GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_gpu_type
Tidak
Tipe GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.
STRING
Ya
master_memory
Tidak
Jumlah memori yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
master_shared_memory
Tidak
Jumlah memori yang dibagikan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
*_cpu
Tidak
Jumlah core CPU yang digunakan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.
STRING
Ya
*_gpu
Tidak
Jumlah core GPU yang digunakan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.
STRING
Ya
*_gpu_type
Tidak
Tipe GPU dari tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Contoh: GU50. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.
STRING
Ya
*_memory
Tidak
Jumlah memori yang digunakan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.
STRING
Ya
*_shared_memory
Tidak
Jumlah memori yang dibagikan oleh tipe node tertentu, yang ditunjukkan oleh karakter wildcard (*). Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi. Karakter wildcard (*) dapat mewakili server parameter, worker, evaluator, atau GraphLearn.
STRING
Ya
Contoh
Jalankan perintah untuk mengirim pekerjaan dengan dua node worker dan satu server parameter.
./dlc submit tfjob --name=test_2021 --ps=1 \ --ps_spec=ecs.g6.8xlarge \ --ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \ --workers=2 \ --worker_spec=ecs.g6.4xlarge \ --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \ --command="python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/" \ --workspace_id=***** \ --data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxxSistem menampilkan keluaran serupa dengan berikut:
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlcmp6vwljkz**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+Gunakan file deskripsi parameter untuk mengirim pekerjaan dengan dua node worker dan satu server parameter.
./dlc submit tfjob --job_file=job_file.dist_mnist.1ps2wjob_file.dist_mnist.1ps2w adalah file deskripsi parameter dengan format
<parameterName>=<parameterValue>. File job_file.dist_mnist.1ps2w berisi konten berikut:name=test_2021 workers=2 worker_spec=ecs.g6.4xlarge worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 ps=1 ps_spec=ecs.g6.8xlarge ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 command=python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/ workspace_id=***** data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx
Mengirim Pekerjaan Pelatihan PyTorch
Deskripsi Fitur
Mengirim pekerjaan pelatihan PyTorch.
Sintaks
Gunakan perintah dengan parameter terkait atau file deskripsi parameter untuk mengirim pekerjaan pelatihan PyTorch.
./dlc submit pytorchjob [flags]Deskripsi Parameter
Jika menggunakan perintah dengan parameter terkait, sertakan kunci parameter beserta nilai aktualnya. Jika menggunakan file deskripsi parameter, tentukan parameter dalam format
<parameterName>=<parameterValue>. Parameter umum dijelaskan dalam bagian "Parameter Umum untuk Mengirim Pekerjaan Pelatihan". Tabel berikut mencantumkan parameter spesifik untuk pekerjaan PyTorch.Tabel 4. Parameter Spesifik untuk Pekerjaan PyTorch
Parameter
Diperlukan
Deskripsi
Tipe
Didukung dalam file deskripsi parameter
workspace_id
Ya
ID ruang kerja yang digunakan untuk mengirim pekerjaan. Secara default, parameter ini dibiarkankosong. Untuk informasi tentang cara membuat ruang kerja, lihat Buat dan kelola ruang kerja.
STRING
Ya
master_image
Tidak
Gambar node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_spec
Tidak
Tipe node dari node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
masters
Tidak
Jumlah node master. Nilai default: 0.
INT
Ya
worker_image
Tidak
Gambar node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_spec
Tidak
Tipe node dari node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
workers
Tidak
Jumlah node worker. Nilai default: 0.
INT
Ya
Tabel 5. Parameter Spesifik untuk Mengirim Pekerjaan PyTorch ke Grup Sumber Daya Khusus
Parameter
Diperlukan
Deskripsi
Tipe
Didukung dalam file deskripsi parameter
resource_id
Tidak (diperlukan jika Anda ingin mengirim pekerjaan ke grup sumber daya khusus)
ID kuota sumber daya khusus. Secara default, parameter ini dibiarkan kosong. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya khusus, lihat Kuota sumber daya komputasi umum.
STRING
Ya
priority
Tidak
Prioritas pekerjaan. Jumlah thread yang digunakan oleh komponen. Nilai default: 1.
INT
Ya
master_cpu
Tidak
Jumlah core CPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_gpu
Tidak
Jumlah core GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_gpu_type
Tidak
Tipe GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.
STRING
Ya
master_memory
Tidak
Jumlah memori yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
master_shared_memory
Tidak
Jumlah memori yang dibagikan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
worker_cpu
Tidak
Jumlah core CPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_gpu
Tidak
Jumlah core GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_gpu_type
Tidak
Tipe GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.
STRING
Ya
worker_memory
Tidak
Jumlah memori yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
worker_shared_memory
Tidak
Jumlah memori yang dibagikan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
Contoh
Jalankan perintah untuk mengirim pekerjaan pelatihan model GPU.
./dlc submit pytorchjob --name=test_pt_face \ --workers=1 \ --worker_spec=ecs.gn6e-c12g1.3xlarge \ --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 \ --command="apt-get update; apt-get -y --allow-downgrades install libpcre3=2:8.38-3.1 libpcre3-dev libgl1-mesa-glx libglib2.0-dev; cd /root/data/face; python train.py --num_workers 0 --save_folder outputs" \ --data_sources=data-20210410224621-xxxxxxxxxxxx \ --workspace_id=*****Sistem menampilkan keluaran serupa dengan berikut:
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlcu704xxuxk**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
Mengirim Pekerjaan Pelatihan XGBoost
Deskripsi Fitur
Mengirim pekerjaan pelatihan XGBoost.
Sintaks
Gunakan perintah dengan parameter terkait atau file deskripsi parameter untuk mengirim pekerjaan pelatihan XGBoost.
./dlc submit xgboostjob [flags]Deskripsi Parameter
Jika menggunakan perintah dengan parameter terkait, sertakan kunci parameter beserta nilai aktualnya. Jika menggunakan file deskripsi parameter, tentukan parameter dalam format
<parameterName>=<parameterValue>. Parameter umum dijelaskan dalam bagian "Parameter Umum untuk Mengirim Pekerjaan Pelatihan". Tabel berikut mencantumkan parameter spesifik untuk pekerjaan XGBoost.Tabel 6. Parameter Spesifik untuk Pekerjaan XGBoost
Parameter
Diperlukan
Deskripsi
Tipe
Didukung dalam file deskripsi parameter
workspace_id
Ya
ID ruang kerja yang digunakan untuk mengirim pekerjaan. Secara default, parameter ini dibiarkan kosong. Untuk informasi tentang cara membuat ruang kerja, lihat Buat dan kelola ruang kerja.
STRING
Ya
master_image
Tidak
Gambar node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_spec
Tidak
Tipe node dari node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
masters
Tidak
Jumlah node master. Nilai default: 0.
INT
Ya
worker_image
Tidak
Gambar node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_spec
Tidak
Tipe node dari node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
workers
Tidak
Jumlah node worker. Nilai default: 0.
INT
Ya
Tabel 7. Parameter Spesifik untuk Mengirim Pekerjaan XGBoost ke Grup Sumber Daya Khusus
Parameter
Diperlukan
Deskripsi
Tipe
Didukung dalam file deskripsi parameter
resource_id
Tidak (diperlukan jika Anda ingin mengirim pekerjaan ke grup sumber daya khusus)
ID kuota sumber daya khusus. Secara default, parameter ini dibiarkan kosong. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya khusus, lihat Kuota sumber daya komputasi umum.
STRING
Ya
priority
Tidak
Prioritas pekerjaan. Jumlah thread yang digunakan oleh komponen. Nilai default: 1.
INT
Ya
master_cpu
Tidak
Jumlah core CPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_gpu
Tidak
Jumlah core GPU yang digunakan oleh node master. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
master_gpu_type
Tidak
Jenis GPU yang digunakan oleh Node master. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.
STRING
Ya
master_memory
Tidak
Jumlah memori yang digunakan oleh Node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
master_shared_memory
Tidak
Jumlah memori yang dibagikan oleh node master. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
worker_cpu
Tidak
Jumlah core CPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_gpu
Tidak
Jumlah core GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong.
STRING
Ya
worker_gpu_type
Tidak
Tipe GPU yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: GU50.
STRING
Ya
worker_memory
Tidak
Jumlah memori yang digunakan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
worker_shared_memory
Tidak
Jumlah memori yang dibagikan oleh node worker. Secara default, parameter ini dibiarkan kosong. Contoh: 500Mi dan 1Gi.
STRING
Ya
Contoh
Jalankan perintah untuk mengirim pekerjaan pelatihan XGBoost.
./dlc submit xgboostjob --name=test_xgboost \ --workers=1 \ --worker_spec=ecs.gn6e-c12g1.3xlarge \ --worker_image=xgboost-training:1.6.0-cpu-py36-ubuntu18.04 \ --command="python /root/code/horovod/xgboost/main.py --job_type=Train --xgboost_parameter=objective:multi:softprob,num_class:3 --n_estimators=50 --model_path=autoAI/xgb-opt/2" \ --workspace_id=*****Sistem menampilkan keluaran serupa dengan berikut:
+----------------------------------+--------------------------------------+ | JobId | RequestId | +----------------------------------+--------------------------------------+ | dlc1nvu3gli0**** | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx | +----------------------------------+--------------------------------------+
Parameter lanjutan yang digunakan untuk mengirim pekerjaan pelatihan
Tentukan node saat mengirim pekerjaan
Konfigurasikan parameter untuk menentukan node saat mengirim pekerjaan pelatihan dengan kuota komputasi umum atau Lingjun menggunakan klien DLC.
Fitur ini hanya tersedia untuk pengguna dalam daftar putih. Hubungi manajer akun Anda untuk menambahkan akun Anda ke daftar putih.
Parameter
Parameter
Deskripsi
Contoh
--allow_nodes="${allow_nodes}"
Daftar node yang diizinkan. Beberapa mode dipisahkan dengan koma (,). Kami sarankan agar tidak menyertakan spasi di antaranya.
lingjuc47iextvg9-***,lingjuc47iextvg9-***
--deny_nodes="${deny_nodes}"
Daftar node yang ditolak. Beberapa mode dipisahkan dengan koma (,). Kami sarankan agar tidak menyertakan spasi di antaranya.
lingjuc47iextvg9-***,lingjuc47iextvg9-***
Contoh
Parameter baris perintah
Contoh perintah:
Tidak ada node yang ditentukan
./dlc submit pytorchjob --name=assign_node_test_no_node \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id='****' \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi'Tentukan node yang diizinkan
./dlc submit pytorchjob --name=assign_node_test_2_allow_nodes \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id=**** \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"Tentukan node yang ditolak
./dlc submit pytorchjob --name=assign_node_test_two_deny_nodes \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id=**** \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"Tentukan node yang diizinkan dan ditolak
./dlc submit pytorchjob --name=assign_node_test_two_allow_two_deny \--workers=1 \ --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \ --command="sleep 1000" \ --workspace_id=**** \ --resource_id='quotau2h98mt****' \ --worker_cpu="1" \ --worker_memory='2Gi' \ --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" \ --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
Baca file
Contoh perintah:
./dlc submit pytorchjob -f job_fileContoh file konfigurasi parameter pekerjaan, job_file:
Tidak ada node yang ditentukan
name=assign_node_test_no_node workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2GiTentukan node yang diizinkan
name=assign_node_test_2_allow_nodes workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****Tentukan node yang dilarang
name=assign_node_test_two_allow_two_deny workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****Tentukan node yang diizinkan dan dilarang
name=assign_node_test_two_allow_two_deny workers=1 worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 command=sleep 1000 workspace_id=**** resource_id=quotau2h98mt**** worker_cpu=1 worker_memory=2Gi allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-**** deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
Nonaktifkan pemeriksaan inventaris bayar sesuai pemakaian saat mengirimkan pekerjaan
Konfigurasikan parameter disable_ecs_stock_check untuk menonaktifkan pemeriksaan inventaris bayar sesuai pemakaian saat mengirim pekerjaan pelatihan menggunakan klien DLC.
Parameter
Parameter
Deskripsi
Contoh
disable_ecs_stock_check
Apakah akan menonaktifkan pemeriksaan inventaris bayar sesuai pemakaian. Nilai yang valid:
false (default): Aktifkan pemeriksaan inventaris bayar sesuai pemakaian.
true: Nonaktifkan pemeriksaan inventaris bayar sesuai pemakaian.
true atau false
Contoh
Parameter baris perintah
Contoh perintah:
Aktifkan pemeriksaan inventaris bayar sesuai pemakaian
./dlc submit pytorchjob \ --name=test_skip_checking3 \ --command='sleep 1000' \ --workspace_id=**** \ --priority=1 \ --workers=1 \ --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 \ --worker_spec=ecs.g6.xlargeNonaktifkan pemeriksaan inventaris bayar sesuai pemakaian
./dlc submit pytorchjob \ --name=test_skip_checking3 \ --command='sleep 1000' \ --workspace_id=**** \ --priority=1 \ --workers=1 \ --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 \ --worker_spec=ecs.g6.xlarge \ --disable_ecs_stock_check=true
Baca file
Contoh perintah:
./dlc submit pytorchjob -f job_fileContoh file konfigurasi parameter pekerjaan, job_file:
Aktifkan pemeriksaan inventaris bayar sesuai pemakaian
name=test_skip_checking3 workers=1 worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 command=sleep 1000 workspace_id=**** worker_spec=ecs.g6.xlargeNonaktifkan pemeriksaan inventaris bayar sesuai pemakaian
name=test_skip_checking3 workers=1 worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:1.12PAI-gpu-py36-cu101-ubuntu18.04 command=sleep 1000 workspace_id=**** worker_spec=ecs.g6.xlarge disable_ecs_stock_check=true
Referensi
Setelah mengirim pekerjaan, gunakan klien DLC untuk mengelola pekerjaan tersebut. Untuk informasi lebih lanjut, lihat Perintah untuk Menghentikan Pekerjaan Pelatihan dan Perintah untuk Meminta Log atau Pekerjaan.
Anda juga dapat mengelola pekerjaan yang telah dikirim melalui konsol PAI. Untuk informasi lebih lanjut, lihat Kelola Pekerjaan Pelatihan.