Konfigurasikan aturan notifikasi untuk menerima pemberitahuan melalui DingTalk, email, atau saluran lainnya ketika suatu pekerjaan DLC gagal, mengalami timeout, atau dipreempt.
Kasus penggunaan
-
Peringatan kegagalan pekerjaan: Terima notifikasi segera saat suatu pekerjaan gagal agar Anda dapat memeriksa log dan melakukan restart.
-
Pemantauan timeout: Deteksi saat suatu pekerjaan melebihi durasi antrean atau waktu proses maksimumnya.
-
Penanganan preemption: Terima peringatan saat pekerjaan instans spot atau idle dipreempt sehingga Anda dapat menjadwalkan ulang.
-
Pengawasan seluruh ruang kerja: Pantau semua pekerjaan dalam suatu ruang kerja agar pelaksanaan pelatihan tim tetap sesuai rencana.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
-
Ruang kerja PAI dengan setidaknya satu pekerjaan DLC.
-
Akses ke Workspace Configuration di ruang kerja Anda.
Konfigurasi notifikasi
-
Pada halaman Workspace Details, pilih Workspace Configuration > Event Notification Configuration, lalu klik Create Event Rule.

-
Pada panel Create Event Rule, konfigurasikan parameter berikut dan klik Submit.

Untuk menerima notifikasi Job Timeout, Anda harus terlebih dahulu mengonfigurasi aturan timeout di Scheduling Configuration. Tanpa aturan tersebut, event timeout tidak akan dipicu. Lihat Konfigurasi aturan peringatan timeout.
Parameter Deskripsi Rule name Nama kustom untuk aturan tersebut. Event type Tetapkan Event Source ke DLC Job dan pilih jenis event yang ingin dipantau. Lihat tabel jenis event yang didukung di bawah ini. Event scope Created by me: Hanya pekerjaan DLC yang dibuat oleh Anda. All in current workspace: Semua pekerjaan DLC dalam ruang kerja. Event target Saluran notifikasi: DingTalk, WeCom, Lark, voice call, text message, atau email. Jenis event yang didukung
Kategori Jenis Peristiwa Kondisi pemicu Job progress Enters Queue Pekerjaan masuk antrean. Start Bidding Pekerjaan memasuki status Bidding. Starts Environment Preparation Pekerjaan mulai menyiapkan lingkungan. Starts Running Pekerjaan mulai berjalan. Retained on Success Pekerjaan disimpan setelah berhasil diselesaikan. Retained on Failure Job tetap dipertahankan setelah terjadi kegagalan. Job Fails Eksekusi pekerjaan gagal. Job Finishes (Success or Failure) Eksekusi pekerjaan selesai, terlepas dari hasilnya. Automatic fault tolerance Automatic Fault Tolerance Pekerjaan DLC mengalami error dan memicu toleransi kesalahan otomatis. Job timeout Queue Timeout Durasi antrean melebihi batas maksimum yang dikonfigurasi. Environment Preparation Timeout Durasi persiapan lingkungan melebihi batas maksimum yang dikonfigurasi. Wait Timeout Durasi tunggu dari pembuatan hingga eksekusi pekerjaan melebihi batas maksimum yang dikonfigurasi. Run Timeout Waktu proses melebihi batas maksimum yang dikonfigurasi, sehingga memicu penghentian otomatis. Other events Job Is Preempted Pekerjaan instans idle atau spot dipreempt. Job Is Manually Stopped Pekerjaan dihentikan secara manual. Job Priority Is Adjusted Prioritas pekerjaan disesuaikan.
Setelah aturan dibuat, sistem akan mengirimkan notifikasi ke kontak yang telah ditentukan saat suatu pekerjaan memicu aturan tersebut. Untuk menyelidiki pekerjaan tersebut, buka halaman Deep Learning Containers (DLC) dan periksa status pemantauan serta log-nya. Untuk informasi lebih lanjut, lihat Lihat detail pelatihan.
Kasus di mana notifikasi tidak dikirim
Memahami kasus-kasus ini membantu Anda menghindari kesimpulan keliru bahwa tidak diterimanya peringatan disebabkan oleh kesalahan konfigurasi:
-
Event timeout tanpa aturan timeout: Jika Anda memilih jenis event Job Timeout tetapi belum mengonfigurasi aturan timeout di Scheduling Configuration, event timeout tidak akan pernah dipicu dan tidak ada notifikasi yang dikirim.
-
Pekerjaan di luar cakupan: Aturan yang dibatasi pada Created by me tidak akan dipicu untuk pekerjaan yang dibuat oleh anggota ruang kerja lainnya.
Konfigurasi aturan peringatan timeout
Aturan peringatan timeout menentukan durasi maksimum yang diizinkan untuk setiap fase pekerjaan DLC. Konfigurasikan aturan ini sebelum mengaktifkan notifikasi timeout pekerjaan.
-
Pada halaman Workspace Configuration, klik tab Scheduling Configuration. Di bagian DLC, konfigurasikan aturan timeout.
Untuk menambahkan beberapa aturan timeout, klik Add.Parameter Deskripsi Resource quota Cakupan resource untuk aturan timeout: Public resource group atau Resource quota tertentu yang dilampirkan ke ruang kerja. Timeout rule configuration Durasi maksimum untuk setiap fase: Job waiting duration (antrean + persiapan lingkungan), Queuing duration, atau Environment preparation duration. -
Klik Save.
Setelah disimpan, buka Event Notification Configuration, pilih sumber event DLC Job, lalu konfigurasikan notifikasi event timeout yang sesuai. Jika tidak ada notifikasi timeout yang dikonfigurasi, Anda tidak akan menerima peringatan saat terjadi timeout.