Buat pekerjaan pelatihan terdistribusi di Deep Learning Containers (DLC), pantau status eksekusi, cari log berdasarkan kata kunci, serta kloning atau hapus pekerjaan.
Prasyarat
-
Akun Alibaba Cloud: Tidak diperlukan otorisasi tambahan.
-
RAM user: Tambahkan RAM user sebagai anggota ruang kerja dan tetapkan role dengan izin yang diperlukan. Untuk daftar izin setiap role, lihat Lampiran: Daftar role dan izin.
Buat pekerjaan pelatihan
Buat pekerjaan pelatihan terdistribusi DLC pada tab Deep Learning Containers (DLC):
-
Akses halaman manajemen pekerjaan:
-
Masuk ke PAI console.
-
Di panel navigasi kiri, klik Workspace List, lalu klik nama ruang kerja.
-
Di panel navigasi kiri halaman ruang kerja, pilih .
-
-
Pada tab Deep Learning Containers (DLC), klik Create Job.
-
Konfigurasikan parameter dan klik OK.
Untuk penjelasan parameter, lihat Buat tugas pelatihan.
Kelola pekerjaan pelatihan
Daftar pekerjaan mengagregasi pekerjaan dari DLC, node algoritma Designer yang berjalan di DLC, dan antarmuka baris perintah DLC:
Pekerjaan yang telah dihapus tidak dapat dipulihkan.
-
①: Cari pekerjaan berdasarkan nama, ID, rentang waktu, framework, atau status.
-
②: Klik nama pekerjaan untuk melihat status eksekusi, status instans, tampilan sumber daya, dan log.
-
③: Arahkan kursor ke ikon status untuk melihat status eksekusi.
-
④: Clone pekerjaan, atau klik TensorBoard pada kolom Actions untuk membuat instans TensorBoard guna melihat hasil pelatihan.
Kueri log agregat berdasarkan kata kunci
Kueri log
Lakukan kueri event log berdasarkan kata kunci pada tab Log:
-
Di panel navigasi kiri, pilih AI Asset Management > Jobs. Pada halaman Deep Learning Containers (DLC), klik nama pekerjaan.
-
Klik tab Log dan konfigurasikan pengaturan:
-
Di atas Job Information, pilih rentang waktu untuk pengumpulan log.
CatatanPengumpulan log mungkin berlangsung melebihi waktu akhir pekerjaan. Pilih rentang waktu yang sesuai dengan kebutuhan Anda.
-
Pada Instance List, pilih instans.
-
Masukkan kata kunci di kotak pencarian untuk mencari log atau event.
-
Aturan kueri dasar
Gunakan kata lengkap saat melakukan kueri log. DLC menggunakan Simple Log Service (SLS) untuk pencarian log, yang melakukan tokenisasi terhadap istilah pencarian. Kueri berbasis istilah mungkin tidak menemukan kecocokan persis dengan frasa kata kunci Anda.
Sebagai contoh, kata kunci abc def mengembalikan semua log yang berisi abc dan semua log yang berisi def, bukan hanya log yang berisi frasa persis abc def.
Aturan kueri fuzzy
Gunakan tanda bintang (*) dan tanda tanya (?) untuk kueri fuzzy. Karakter khusus lainnya tidak didukung.
-
Tanda bintang (*) cocok dengan beberapa karakter. Tanda tanya (?) cocok dengan satu karakter.
-
Letakkan tanda bintang (*) atau tanda tanya (?) di tengah atau di akhir kata kunci. Wildcard tidak dapat ditempatkan di awal.
Sebagai contoh, abc* menemukan istilah yang dimulai dengan abc. ab?d menemukan istilah yang dimulai dengan ab, diakhiri dengan d, dan memiliki satu karakter di antaranya.
Saat melakukan kueri fuzzy, layanan mencari hingga 100 istilah yang cocok dalam penyimpanan log dan mengembalikan log yang berisi istilah-istilah tersebut. Jika kueri fuzzy Anda menggunakan awalan pendek yang cocok dengan lebih dari 100 istilah, hasilnya mungkin tidak akurat. Gunakan istilah yang lebih spesifik untuk akurasi yang lebih baik.
Batasan tokenizer
SLS memperlakukan karakter-karakter umum berikut sebagai pembatas saat melakukan tokenisasi log pelatihan: , '";=()[\",\"]{}?@&<>/:\n\t\r
Pembatas membagi konten log menjadi token untuk kueri. Kata kunci yang hanya terdiri dari pembatas tidak dianggap sebagai kata lengkap dan tidak menghasilkan apa pun.
Contoh 1: Kata kunci &&& tidak menemukan log yang cocok. Bangun kata kunci berdasarkan konteks konten yang ingin Anda cari.
Contoh 2: Untuk mencari log yang berisi a&b, gunakan a&b sebagai kata kunci, bukan &. Kueri ini mengembalikan log yang berisi a dan b. Kata kunci yang lebih rinci menghasilkan hasil yang lebih akurat.
Contoh kueri
|
Kebutuhan kueri |
Kata kunci |
|
Log yang berisi Error |
Error |
|
Log yang berisi loss dan acc |
loss acc |
|
Semua log terkait Traceback |
Traceback* |
|
Log yang berisi abc&def |
abc&def |