Gunakan klien Deep Learning Containers (DLC) untuk melihat log pekerjaan DLC, daftar pekerjaan, dan detail pekerjaan. Topik ini menjelaskan sintaksis, parameter, serta contoh penggunaan perintah terkait.
Perintah logs
Deskripsi fitur
Perintah ini digunakan untuk menanyakan log dari pekerjaan pelatihan.
Sintaksis
./dlc logs <yourJobId> <yourPodId> [--max_events_num <yourMaxNum>] [--start_time <yourStartTime>] [--end_time <yourEndTime>]Parameter
Parameter
Diperlukan
Deskripsi
Tipe
<yourJobId>
Ya
ID pekerjaan pelatihan yang ingin Anda tanyakan.
STRING
<yourPodId>
Ya
ID pod yang log-nya ingin Anda lihat. Anda perlu menentukan beberapa pod dalam skenario di mana pekerjaan terdistribusi dibuat.
STRING
max_events_num <yourMaxNum>
Tidak
Jumlah maksimum entri log yang akan dikembalikan. Nilai default: 2000.
INT
start_time <yourStartTime>
Tidak
Waktu mulai dari query. Nilai default adalah 7 hari sebelum waktu saat ini. Contoh: start_time 2020-11-08T16:00:00Z.
STRING
end_time <yourEndTime>
Tidak
Waktu akhir dari query. Nilai default adalah waktu saat ini. Contoh: end_time 2020-11-08T17:00:00Z.
STRING
Contoh
Mendapatkan 10 baris log untuk Worker Node 0 dari pekerjaan pelatihan terdistribusi.
./dlc logs dlcdys3r9jlu**** dlcdys3r********-worker-0 --max_events_num 10Sistem mengembalikan informasi serupa dengan keluaran berikut:
WARN: ./requirements.txt tidak ditemukan, lewati instalasi requirements. ================================================ | PAI Tensorflow powered by Aliyun PAI Team. | ================================================ Jaringan sedang diinisialisasi... Jaringan berhasil diinisialisasi. [2021-04-16 12:27:56.368026] [INFO] [7#7] [tensorflow/core/platform/cpu_feature_guard.cc:141] CPU Anda mendukung instruksi yang binary TensorFlow ini tidak dikompilasi untuk gunakan: AVX2 AVX512F FMA [2021-04-16 12:27:56.375586] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:80] ====================Arsitektur CPU===================== [2021-04-16 12:27:56.375600] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:84] Nonaktifkan AVX512. [2021-04-16 12:27:56.375605] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:87] ID Vendor CPU: GenuineIntel
Perintah get job
Deskripsi fitur
Perintah ini digunakan untuk mendapatkan informasi tentang pekerjaan pelatihan. Jika ID pekerjaan tidak ditentukan, semua pekerjaan akan ditampilkan. Jika ID pekerjaan ditentukan, hanya pekerjaan tersebut yang akan ditampilkan.
Sintaksis
./dlc get job [JOB_ID] [--workspace_id <yourWorkspaceId>] [--display_name <yourJobName>] [--job_type <yourJobType>] [--status <yourJobStatus>] [--start_time <yourStartTime>] [--end_time <yourEndTime>] [--page_num <yourPageNum>] [--page_size <yourPageSize>] [--max_events_num <yourMaxNum>] [--events] [--events_only]Deskripsi parameter
Parameter
Diperlukan
Deskripsi
Tipe
JOB_ID
Tidak
ID pekerjaan pelatihan yang ingin Anda tanyakan.
STRING
workspace_id <yourWorkspaceId>
Tidak
ID ruang kerja.
STRING
display_name <yourJobName>
Tidak
Nama pekerjaan. Query fuzzy didukung. Nama bersifat case-insensitive. Wildcard tidak didukung.
STRING
job_type <yourJobType>
Tidak
Jenis pekerjaan. Anda dapat menanyakan pekerjaan dari semua jenis. Parameter ini kosong secara default, yang menunjukkan semua jenis.
STRING
status <yourJobStatus>
Tidak
Status pekerjaan. Nilai valid: Parameter ini kosong secara default, yang menunjukkan semua status.
STRING
start_time <yourStartTime>
Tidak
Waktu mulai dari query. Contoh: start_time 2022-08-04T02:09:32Z.
STRING
end_time <yourEndTime>
Tidak
Waktu akhir dari query. Contoh: end_time 2022-08-04T02:09:32Z.
STRING
page_num <yourPageNum>
Tidak
Nomor halaman yang akan dikembalikan untuk query saat ini. Nomor halaman dimulai dari 1. Nilai default: 1.
INT
page_size <yourPageSize>
Tidak
Jumlah entri yang akan dikembalikan di setiap halaman. Nilai default: 10.
INT
max_events_num <yourMaxNum>
Tidak
Jumlah maksimum baris dari event sistem yang akan dikembalikan. Nilai default: 2000.
INT
events
Tidak
Menentukan apakah akan menanyakan event sistem dari pekerjaan. Parameter ini berlaku hanya ketika satu pekerjaan ditanyakan. Nilai default: false.
BOOL
events_only
Tidak
Menentukan apakah hanya menanyakan event sistem dari pekerjaan. Parameter ini berlaku hanya ketika satu pekerjaan ditanyakan. Nilai default: false.
BOOL
Contoh
Menanyakan pekerjaan pelatihan berdasarkan nama menggunakan pencocokan fuzzy.
./dlc get job --display_name eplSistem mengembalikan informasi serupa dengan keluaran berikut:
+--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+ | Nama | JobId | WorkspaceId | WorkspaceName | ResourceId | ResourceName | JobType | Prioritas | JobStatus | UserId | CreateTime | SubmittedTime | RunningTime | SuccessedTime | StoppedTime | FailedTime | FinishTime | Durasi(detik) | +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+ | test_epl_test-**** | dlc02xipvt5z**** | 23**** | doc_test_**** | | public-cluster | TFJob | 1 | Berhasil | 144963168668**** | 2022-08-01T06:41:05Z | 2022-08-01T06:45:08Z | 2022-08-01T06:48:57Z | 2022-08-01T06:53:21Z | | | 2022-08-01T06:53:21Z | 736 | | test_epl_**** | dlc1iyv3szl2**** | 23**** | doc_test_**** | | public-cluster | TFJob | 1 | Berhasil | 144963168668**** | 2022-08-01T03:23:51Z | 2022-08-01T03:27:22Z | 2022-08-01T03:27:50Z | 2022-08-01T03:33:48Z | | | 2022-08-01T03:33:48Z | 597 | +--------------------+------------------+-------------+------------------+------------+----------------+---------+----------+-----------+------------------+----------------------+----------------------+----------------------+----------------------+-------------+------------+----------------------+-------------------+Menanyakan pekerjaan pelatihan tertentu.
./dlc get job dlc02xipvt5z****Sistem mengembalikan informasi serupa dengan keluaran berikut:
{ "ClusterId": "", "CodeSource": { "Branch": "main", "CodeSourceId": "code-29****c****c4****ae0c9ec75a5****", "MountPath": "" }, "DataSources": [ { "DataSourceId": "d-ya7gc2p2iqq240****", "MountPath": "" } ], "DisplayName": "test_epl_test-****", "Duration": 736, "ElasticSpec": { "AIMasterType": "", "EnableElasticTraining": false, "MaxParallelism": 0, "MinParallelism": 0 }, "EnabledDebugger": false, "GmtCreateTime": "2022-08-01T06:41:05Z", "GmtFinishTime": "2022-08-01T06:53:21Z", "GmtRunningTime": "2022-08-01T06:48:57Z", "GmtSubmittedTime": "2022-08-01T06:45:08Z", "GmtSuccessedTime": "2022-08-01T06:53:21Z", "JobId": "dlc02xipvt5z****", "JobSpecs": [ { "AssignNodeSpec": { "EnableAssignNode": false, "NodeNames": "" }, "EcsSpec": "ecs.gn6v-c8g1.2xlarge", "Image": "registry.cn-shanghai.aliyuncs.com/pai-dlc/tensorflow-training:1.15-gpu-py36-cu100-ubuntu1****", "PodCount": 2, "ResourceConfig": { "CPU": "", "GPU": "", "GPUType": "", "Memory": "", "SharedMemory": "" }, "Type": "Worker", "UseSpotInstance": false } ], "JobType": "TFJob", "Pods": [ { "GmtCreateTime": "2022-08-01T06:45:08Z", "GmtFinishTime": "2022-08-01T06:53:20Z", "GmtStartTime": "2022-08-01T06:52:06Z", "Ip": "10.224.xx.xx", "PodId": "dlc02xipvt5z****-worker-0", "PodUid": "", "Status": "Berhasil", "Type": "worker" }, { "GmtCreateTime": "2022-08-01T06:45:08Z", "GmtFinishTime": "2022-08-01T06:53:20Z", "GmtStartTime": "2022-08-01T06:48:57Z", "Ip": "10.224.xx.xx", "PodId": "dlc02xipvt5z****-worker-1", "PodUid": "", "Status": "Berhasil", "Type": "worker" } ], "ReasonCode": "JobSucceeded", "ReasonMessage": "TFJob dlc02xipvt5z**** berhasil diselesaikan.", "RequestId": "76FC3500-xxxx-533F-B24A-AC9B2A72****", "ResourceId": "", "Prioritas": 1, "ResourceLevel": "", "Pengaturan": { "BusinessUserId": "", "Caller": "", "EnableErrorMonitoringInAIMaster": false, "EnableTideResource": false, "ErrorMonitoringArgs": "", "PipelineId": "" }, "Status": "Berhasil", "ThirdpartyLibDir": "", "UserCommand": "cd /root/xxxx/xxxx/\npip install .\ncd examples/resnet\nbash scripts/xxxx_dp.sh", "UserId": "144963168668****", "WorkspaceId": "23****", "WorkspaceName": "doc_test_****" }
Referensi
Detail pekerjaan dapat dilihat di konsol. Untuk informasi lebih lanjut, lihat Lihat detail pelatihan.