Deep Learning Containers (DLC) adalah platform pelatihan berbasis Kubernetes yang mendukung berbagai framework dan sumber daya komputasi, termasuk Layanan Komputasi AI Lingjun dan GPU.
Manfaat
-
Sumber daya komputasi beragam:
Mendukung berbagai tipe instans pada Layanan Komputasi AI Lingjun dan sumber daya komputasi umum, seperti ECS, ECI, instans Shenlong Bare Metal, dan instans bare metal Lingjun. Penjadwalan hibrida untuk daya komputasi heterogen juga tersedia.
-
Berbagai jenis pekerjaan terdistribusi:
Mendukung lebih dari sepuluh framework pelatihan, termasuk Megatron, DeepSpeed, PyTorch, TensorFlow, Slurm, Ray, MPI, dan XGBoost, tanpa perlu membangun kluster terpisah. DLC menyediakan image resmi yang telah dibuat sebelumnya, mendukung lingkungan runtime kustom, serta menerima pekerjaan dari Konsol, SDK, atau CLI.
-
Toleransi kesalahan:
Untuk pelatihan model besar, DLC menyediakan mesin toleransi kesalahan AIMaster, framework checkpoint EasyCKPT, fitur pemeriksaan kesehatan SanityCheck, dan self-healing node. Fitur-fitur ini secara otomatis mendeteksi dan memulihkan titik kegagalan sehingga mengurangi kehilangan daya komputasi.
-
Akselerasi pelatihan:
Kerangka akselerasi bawaan meningkatkan efisiensi pelatihan terdistribusi melalui parallelisme data, parallelisme pipeline, pemisahan operator, dan strategi parallel bersarang. Kerangka ini juga menyediakan eksplorasi strategi parallel otomatis, optimasi memori multi-dimensi, penjadwalan yang mempertimbangkan topologi, serta pustaka komunikasi teroptimasi dengan fusi dan kompresi gradien.
Jenis sumber daya
Saat mengirimkan pekerjaan pelatihan DLC, pilih salah satu jenis sumber daya berikut:
-
Layanan Komputasi AI Lingjun: Sumber daya komputasi yang dirancang untuk pelatihan model besar dan tugas pembelajaran mendalam skala sangat besar, seperti kendaraan otonom dan penelitian ilmiah.
-
Sumber daya komputasi umum: Cocok untuk kebutuhan pelatihan standar dan mendukung tugas pembelajaran mesin dalam berbagai skala dan jenis.
Layanan Komputasi AI Lingjun dan sumber daya komputasi umum tersedia dalam bentuk berikut:
-
Kuota sumber daya: Beli subscription untuk Layanan Komputasi AI Lingjun atau sumber daya komputasi umum di muka guna manajemen sumber daya yang fleksibel.
-
Sumber daya publik: Gunakan Layanan Komputasi AI Lingjun atau sumber daya komputasi umum sesuai kebutuhan saat mengirimkan pekerjaan pelatihan, tanpa perlu membeli sumber daya di muka. Ditagih berdasarkan skema pay-as-you-go.
-
Sumber daya preemptible: Layanan Komputasi AI Lingjun menawarkan sumber daya preemptible untuk mendapatkan daya komputasi AI dengan biaya lebih rendah.
Kasus penggunaan
-
Pra-pemrosesan data
Kustomisasi lingkungan runtime untuk pra-pemrosesan data paralel offline guna menyederhanakan rekayasa data.
-
Pelatihan terdistribusi skala besar
Jalankan pelatihan terdistribusi offline skala besar dengan berbagai framework pembelajaran mendalam open-source. DLC mendukung pelatihan pada ribuan node secara simultan.
-
Inferensi offline
Jalankan pekerjaan inferensi offline pada DLC untuk meningkatkan pemanfaatan sumber daya GPU yang menganggur.
Alur kerja
Selama pelatihan model, gunakan DLC untuk menjalankan pekerjaan pelatihan terdistribusi skala besar. Alur kerjanya sebagai berikut:
-
Persiapan
Sebelum mengirimkan pekerjaan pelatihan, siapkan sumber daya komputasi, image, set data, dan repositori kode. Untuk langkah-langkah detail, lihat Persiapan.
-
Buat pekerjaan pelatihan
Kirimkan pekerjaan pelatihan dari Konsol, SDK, atau CLI. Untuk detail parameter, lihat Buat pekerjaan pelatihan.
Saat mengirimkan pekerjaan DLC, konfigurasikan fitur-fitur lanjutan berikut:
-
Toleransi kesalahan otomatis: Menjalankan instans AIMaster untuk memantau pekerjaan dan secara otomatis memulihkan dari kegagalan.
-
Pemeriksaan kesehatan: Menjalankan SanityCheck pada sumber daya sebelum pelatihan dan secara otomatis mengisolasi node yang rusak untuk mengurangi kegagalan startup pekerjaan.
-
EasyCKPT: Menyimpan dan memulihkan model PyTorch besar tanpa kehilangan data serta mendukung pelatihan lanjutan dari checkpoint.
-
Konfigurasi RDMA: Konfigurasikan jaringan RDMA untuk sumber daya Layanan Komputasi AI Lingjun guna mempercepat komunikasi antar-node dalam pelatihan terdistribusi.
-
Konfigurasi penyimpanan: Akses data pelatihan di OSS, NAS, CPFS, atau MaxCompute dengan mengonfigurasinya dalam kode Anda atau memasangnya sebagai volume.
-
Penerusan log SLS: Teruskan log pekerjaan DLC ke Logstore Log Service (SLS) yang ditentukan untuk analisis dan pemantauan kustom.
-
Sumber daya preemptible: Gunakan sumber daya preemptible dari Layanan Komputasi AI Lingjun untuk mendapatkan daya komputasi AI dengan biaya lebih rendah.
-
-
Lihat dan kelola pekerjaan pelatihan
Setelah mengirimkan pekerjaan, lihat detail pekerjaan pelatihan untuk memantau statusnya. Operasi seperti menghentikan, mengkloning, berbagi, dan menghapus pekerjaan juga tersedia. Untuk informasi lebih lanjut, lihat Kelola pekerjaan pelatihan.
-
Pantau pekerjaan pelatihan
Setelah mengirimkan pekerjaan pelatihan, pantau dengan cara-cara berikut:
-
Untuk pekerjaan pelatihan dengan set data yang ditautkan, lihat laporan analisis pekerjaan pelatihan.
-
Gunakan CloudMonitor atau Application Real-Time Monitoring Service (ARMS) untuk melihat status sumber daya pekerjaan DLC Anda atau mengonfigurasi aturan peringatan. Untuk informasi lebih lanjut, lihat Pantau pekerjaan pelatihan menggunakan CloudMonitor atau ARMS.
-
Buat aturan notifikasi pesan di pusat event ruang kerja PAI Anda untuk memantau status pekerjaan DLC. Untuk informasi lebih lanjut, lihat Konfigurasi notifikasi pesan.
-
-
Konfigurasi pekerjaan pelatihan terjadwal
Untuk pelatihan berkelanjutan dan penyetelan model dengan data atau hiperparameter yang diperbarui, konfigurasikan penjadwalan offline untuk mengirimkan pekerjaan DLC secara berkala.
Untuk kasus penggunaan DLC lainnya, lihat Tutorial DLC.
Topik terkait
-
Buat pekerjaan pelatihan: Kirimkan pekerjaan pelatihan dari Konsol, SDK, atau CLI, dan konfigurasikan parameter utama.
-
Kasus penggunaan DLC: Contoh praktis penggunaan DLC.