Topik ini menjelaskan cara mengirim pekerjaan pelatihan TensorFlow dan pekerjaan cron di Konsol Pengembangan AI.
Prasyarat
AI development console dan scheduling component dari set komponen AI cloud-native terpasang di kluster Kubernetes profesional. Kluster harus menjalankan Kubernetes versi 1.20 atau yang lebih baru.
Pengguna Resource Access Management (RAM) dibuat di Konsol RAM oleh administrator kluster. Grup kuota ditambahkan dan dikaitkan dengan pengguna RAM. Untuk informasi lebih lanjut, lihat Langkah 1: Buat grup kuota untuk pengguna RAM.
Dataset atau repositori kode sumber dikonfigurasi untuk pekerjaan pelatihan. Untuk informasi lebih lanjut, lihat Konfigurasikan dataset dan repositori kode sumber untuk pekerjaan pelatihan.
Kirim Pekerjaan Pelatihan TensorFlow
Masuk ke AI development console. Untuk informasi lebih lanjut, lihat Langkah 2: Masuk ke Konsol Pengembangan AI.
Di panel navigasi sisi kiri Konsol Pengembangan AI, klik Submit Job.
Di bagian Basic Information:
Konfigurasikan parameter seperti Job Name, Job Type (tipe default: TF-Stand-alone), Namespace, dan Execution Command.
PentingNamespace: Anda hanya dapat memilih namespace yang dialokasikan kepada Anda oleh administrator kluster. Parameter lainnya dapat disesuaikan sesuai kebutuhan.
Opsional: Aktifkan Tensorboard untuk memvisualisasikan hasil pelatihan.
Opsional: Aktifkan Cron untuk mengonfigurasi pekerjaan cron.
Cron Schedule: Masukkan ekspresi cron standar. Untuk informasi lebih lanjut tentang penggunaan ekspresi cron, lihat Bagaimana menggunakan cron di Linux.
Jika pekerjaan pelatihan saat ini sedang berlangsung, pilih kebijakan konkurensi dari daftar drop-down Concurrency Policy. Nilai valid:
Allow: Mengizinkan pembuatan pekerjaan pelatihan baru.
Forbid: Melarang pembuatan pekerjaan pelatihan baru sebelum pekerjaan pelatihan saat ini selesai.
Replace: Mengganti pekerjaan pelatihan saat ini dengan pekerjaan pelatihan baru.
History Record Limit: Pekerjaan pelatihan TensorFlow yang dibuat oleh pekerjaan cron disimpan di kluster. Jika jumlah pekerjaan yang disimpan melebihi batas, sistem akan menghapus pekerjaan pelatihan TensorFlow yang dibuat pada waktu paling awal.
Di bagian Resources, konfigurasikan parameter berikut untuk pekerjaan pelatihan: Instances Count, Image, CPU (Cores) (nilai default: 4), Memory (GB) (nilai default: 8 GB), dan GPU (Card Numbers) (nilai default: 0).
Di bagian Advance Configuration, konfigurasikan parameter Label, Annotation, dan NodeSelector untuk objek Kubernetes.
Klik Submit Job.
Di panel navigasi sisi kiri Konsol Pengembangan AI, klik Job List untuk melihat informasi pekerjaan, seperti nama dan status pekerjaan.