全部产品
Search
文档中心

Platform For AI:Buat dan kelola pekerjaan pelatihan kontainer

更新时间:Jul 02, 2025

Halaman Pekerjaan Pelatihan Terdistribusi di Konsol Platform for AI (PAI) memungkinkan Anda mengelola pekerjaan pelatihan kontainer secara visual dan terpusat. Pekerjaan ini didukung oleh modul Deep Learning Containers (DLC) dari PAI. Topik ini menjelaskan cara membuat dan mengelola pekerjaan pelatihan kontainer.

  • Pengguna RAM: Tambahkan Pengguna Resource Access Management (RAM) sebagai anggota ruang kerja dengan peran tertentu dan berikan izin kepada peran tersebut. Untuk informasi lebih lanjut, lihat Lampiran: Peran dan Izin.

Buat pekerjaan pelatihan kontainer

Anda dapat membuat pekerjaan pelatihan DLC di halaman Distributed Training Jobs.

  1. Buka halaman Pekerjaan Pelatihan Terdistribusi

    1. Masuk ke Konsol PAI.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Ruang Kerja, klik nama ruang kerja yang ingin dikelola.

    3. Di panel navigasi sebelah kiri, pilih AI Computing Asset Management > Jobs untuk masuk ke halaman Pekerjaan Pelatihan Terdistribusi.

  2. Di tab Deep Learning Containers (DLC), klik Create Job.

  3. Di halaman Create Job, konfigurasikan parameter dan klik Kirim.

    Untuk detail tentang konfigurasi parameter, lihat Kirim Pekerjaan Pelatihan.

Kelola pekerjaan pelatihan kontainer

Halaman Pekerjaan Pelatihan Terdistribusi menampilkan pekerjaan pelatihan terdistribusi yang dikirimkan melalui tab DLC dan CLI DLC, serta tugas pipeline yang dikirimkan menggunakan Machine Learning Designer. Gambar berikut memberikan panduan untuk mengelola pekerjaan dan tugas yang ditampilkan di halaman. 1427c12ceff2885134cb7dd17c7b782d.png

Peringatan

Pekerjaan DLC yang telah dihapus tidak dapat dipulihkan. Lanjutkan dengan hati-hati.

  • ①: Cari pekerjaan pelatihan yang ingin dikelola menggunakan Job Name, Job ID, Running Duration, Job Type, atau Status.

  • ②: Klik nama pekerjaan untuk masuk ke halaman detail pekerjaan, di mana Anda dapat melihat status pekerjaan, eksekusi instance, sumber daya, dan log.

  • ③: Arahkan pointer ke ikon di sebelah status pekerjaan untuk melihat statusnya, seperti yang ditunjukkan pada bagian ③ gambar sebelumnya.

  • ④: Temukan pekerjaan yang ingin dikelola dan klik Clone di kolom Actions untuk menduplikasi pekerjaan. Anda juga dapat mengklik TensorBoard di kolom Tindakan untuk membuat instance TensorBoard dan melihat hasil pelatihan yang divisualisasikan di halaman TensorBoard.

Cari log teragregasi berdasarkan kata kunci

Prosedur

Ikuti langkah-langkah berikut untuk mencari peristiwa log berdasarkan kata kunci di tab Log.

  1. Di panel navigasi sebelah kiri, pilih AI Computing Asset Management > Jobs. Di halaman Deep Learning Containers (DLC), klik nama pekerjaan.

  2. Klik tab Log dan konfigurasikan parameter.

    1. Di bagian Job Information, pilih rentang waktu untuk pengumpulan log.

      Catatan

      Log mungkin dikumpulkan lebih lambat daripada waktu akhir pekerjaan. Pilih waktu sesuai situasi aktual.

    2. Di bagian Instances, pilih instance yang diinginkan.

    3. Masukkan kata kunci di kotak input di sebelah kanan untuk mencari log atau peristiwa terkait.

Aturan pencarian dasar

DLC mengharuskan Anda memasukkan kata lengkap sebagai kata kunci untuk mencari log teragregasi. Sementara itu, Simple Log Service (SLS) menggunakan segmentasi kata untuk menanyakan log. Frasa tidak dapat sepenuhnya cocok berdasarkan pencarian tepat.

Sebagai contoh, jika Anda menggunakan frasa kata kunci abc def, hasil pencarian mencakup semua log yang berisi abc atau def. Log yang berisi frasa lengkap abc def tidak dapat dicocokkan.

Aturan pencarian fuzzy

Saat mencari log teragregasi berdasarkan kata kunci, Anda dapat menggunakan tanda bintang (*) dan tanda tanya (?) untuk melakukan pencarian fuzzy. Karakter khusus lainnya tidak valid. Berikut adalah detail aturan:

  • Tanda bintang (*) menunjukkan nol atau lebih kemunculan karakter. Tanda tanya (?) menunjukkan satu kemunculan karakter.

  • Tambahkan tanda bintang (*) atau tanda tanya (?) sebagai wildcard di tengah atau di akhir kata kunci untuk melakukan pencarian fuzzy. Kata kunci yang dimulai dengan karakter wildcard tidak valid.

Sebagai contoh, gunakan kata kunci abc* untuk mencari kata yang dimulai dengan abc, dan kata kunci ab?d untuk mencari kata yang dimulai dengan ab, diakhiri dengan d, dan berisi satu karakter di tengah.

Catatan

SLS mencari semua log dan mendapatkan hingga 100 string yang memenuhi kondisi tertentu. Kemudian, SLS mengembalikan log yang berisi satu atau lebih dari 100 string tersebut dan memenuhi kondisi pencarian. Jika awalan pendek, jumlah kata yang cocok mungkin melebihi 100. Dalam hal ini, hanya sebagian log yang cocok yang dikembalikan. Semakin akurat kata kunci, semakin akurat hasil pencariannya.

Batasan pada pemisah

SLS untuk DLC menggunakan karakter umum berikut sebagai pemisah:, '";=()[\",\"]{}?@<>/:\n\t\r.

Pemisah digunakan untuk membagi isi log menjadi beberapa string. Oleh karena itu, string yang hanya berisi pemisah tidak dapat digunakan sebagai kata kunci. Tidak ada hasil yang dikembalikan.

Contoh 1: String &&& tidak dapat digunakan sebagai kata kunci dan tidak ada log yang dikembalikan. Gunakan kata kunci lain berdasarkan konteks kata kunci yang ingin Anda cari.

Contoh 2: Untuk mencari log yang berisi a&b, gunakan kata kunci a&b bukan &. Jika Anda menggunakan kata kunci a&b, log yang berisi a atau b akan dikembalikan. Semakin rinci kata kunci, semakin akurat hasilnya.

Kata kunci contoh

Permintaan

Kata kunci contoh

Cari log yang berisi Error.

Error

Cari log yang berisi loss dan acc.

loss acc

Pencarian fuzzy untuk log yang berisi Traceback.

Traceback*

Cari log yang berisi abc&def.

abc&def