Deep Learning Containers (DLC) memungkinkan Anda membuat pekerjaan pelatihan tunggal atau terdistribusi dengan cepat. DLC menggunakan Kubernetes untuk meluncurkan node komputasi, menghilangkan kebutuhan untuk menyediakan mesin secara manual dan mengonfigurasi lingkungan runtime tanpa mengganggu alur kerja yang ada. Dengan dukungan untuk berbagai kerangka pembelajaran mendalam dan opsi konfigurasi sumber daya yang fleksibel, DLC sangat ideal untuk penyebaran pekerjaan pelatihan secara cepat.
Manfaat
Sumber daya komputasi beragam:
Dibangun di atas Layanan Komputasi AI Lingjun dan sumber daya komputasi umum, DLC mendukung berbagai tipe instans komputasi, termasuk Elastic Compute Service (ECS), Elastic Container Instance (ECI), Instans Bare Metal Shenlong, dan instans bare metal Lingjun. Hal ini memungkinkan penjadwalan hibrida untuk komputasi heterogen.
Jenis pekerjaan terdistribusi:
DLC mendukung lebih dari sepuluh kerangka kerja pelatihan, seperti Megatron, DeepSpeed, PyTorch, TensorFlow, Slurm, Ray, MPI, dan XGBoost, tanpa perlu membangun kluster sendiri. DLC menyediakan berbagai citra resmi dan mendukung lingkungan runtime kustom. Anda dapat mengirimkan pekerjaan melalui Konsol, SDK, atau baris perintah, menjadikannya solusi komprehensif untuk Pelatihan AI.
Stabilitas tinggi:
Untuk pelatihan LLM, DLC menggunakan mesin toleransi kesalahan eksklusif (AIMaster), kerangka checkpointing berkinerja tinggi (EasyCKPT), fitur Pemeriksaan Kesehatan (SanityCheck), dan kemampuan penyembuhan diri node. Fitur-fitur ini memberikan deteksi cepat, diagnostik tepat, dan umpan balik cepat, menyelesaikan masalah stabilitas, mengurangi kehilangan daya komputasi, serta meningkatkan keandalan pelatihan.
Kinerja tinggi:
Kerangka akselerasi pelatihan AI eksklusif meningkatkan efisiensi pelatihan terdistribusi melalui strategi akselerasi paralel terpadu, termasuk paralelisme data, paralelisme pipeline, pemisahan operator, dan paralelisme bersarang. Kerangka ini menggabungkan eksplorasi strategi paralel otomatis dan optimasi memori multi-dimensi dengan penjadwalan sadar topologi melalui jaringan berkecepatan tinggi. Optimasi tambahan dalam pustaka komunikasi terdistribusi mencakup kolam thread komunikasi, pengelompokan gradien, komunikasi presisi campuran, dan kompresi gradien, menciptakan mesin pelatihan yang sangat dioptimalkan untuk pre-training model besar, pelatihan berkelanjutan, dan penyelarasan.
Tipe Sumber Daya
Saat mengirimkan pekerjaan pelatihan melalui Deep Learning Containers (DLC), Platform for AI (PAI) menawarkan dua tipe sumber daya berikut berdasarkan kasus penggunaan dan kebutuhan daya komputasi:
Layanan Komputasi AI Lingjun: Layanan ini dirancang untuk pelatihan model besar dan tugas pembelajaran mendalam lainnya yang memerlukan sumber daya komputasi masif. Berbasis pada optimasi bersama perangkat lunak-perangkat keras, layanan ini menyediakan fondasi komputasi heterogen berkinerja tinggi dan kemampuan rekayasa AI end-to-end. Keunggulan intinya adalah kinerja tinggi, efisiensi tinggi, dan pemanfaatan tinggi, memenuhi kebutuhan bidang seperti pelatihan model besar, mengemudi otonom, penelitian dasar, dan keuangan.
Sumber daya komputasi umum: Sumber daya ini cocok untuk kebutuhan pelatihan standar dan mendukung tugas pembelajaran mesin berbagai skala dan jenis.
Layanan Komputasi AI Lingjun dan sumber daya komputasi umum tersedia melalui opsi pembelian berikut:
Kuota sumber daya: Anda dapat membeli Layanan Komputasi AI Lingjun atau sumber daya komputasi umum di muka berdasarkan langganan, memungkinkan manajemen sumber daya yang fleksibel dan penggunaan yang efisien.
Sumber daya publik: Anda dapat menggunakan Layanan Komputasi AI Lingjun atau sumber daya komputasi umum sesuai permintaan saat mengirimkan pekerjaan pelatihan, tanpa perlu membelinya terlebih dahulu. Anda akan ditagih berdasarkan model bayar sesuai penggunaan.
Sumber daya preemptible: Layanan Komputasi AI Lingjun menawarkan Instans preemptible, membantu Anda mendapatkan daya komputasi AI dengan biaya lebih rendah dan mengurangi biaya keseluruhan pekerjaan.
Skenario
Praproses data
Anda dapat menyesuaikan lingkungan runtime untuk melakukan pra-pemrosesan data paralel offline, yang secara signifikan menyederhanakan pra-pemrosesan data.
Pelatihan terdistribusi berskala besar
Anda dapat melakukan pelatihan terdistribusi offline berskala besar menggunakan berbagai kerangka pembelajaran mendalam open-source. DLC mendukung pelatihan pada ribuan node secara bersamaan, mempersingkat waktu pelatihan secara signifikan.
Inferensi offline
Anda dapat menggunakan DLC untuk menjalankan inferensi offline pada model. Pendekatan ini meningkatkan pemanfaatan GPU selama periode idle dan mengurangi pemborosan sumber daya.
Referensi
Buat tugas pelatihan: Pelajari cara mengirimkan pekerjaan pelatihan melalui Konsol, SDK, atau baris perintah, serta mengonfigurasi parameter utama.
Kasus penggunaan DLC: Pelajari cara menggunakan DLC melalui contoh praktis.