ACK Lingjun adalah jenis kluster dalam Container Service for Kubernetes (ACK), yang dirancang khusus untuk Intelligent Computing LINGJUN. Kluster ini menyediakan bidang kontrol yang dikelola sepenuhnya dan sangat tersedia. Anda dapat menerapkan node komputasi Lingjun di dalam kluster terkelola ACK Lingjun. Topik ini memperkenalkan kluster terkelola ACK Lingjun serta menjelaskan fitur dan keunggulannya.
Daftar isi
Catatan penggunaan
Untuk menggunakan kluster terkelola ACK Lingjun, Anda harus terlebih dahulu membuat Lingjun cluster with ACK activated di dalam konsol Intelligent Computing LINGJUN.
Untuk informasi lebih lanjut tentang operasi yang dapat Anda lakukan pada kluster terkelola ACK Lingjun dan fitur-fiturnya, lihat topik-topik berikut:
Pengenalan
Kluster terkelola ACK Lingjun menyediakan bidang kontrol yang dikelola sepenuhnya dan sangat tersedia, serta mendukung manajemen sumber daya heterogen yang efisien dan penjadwalan tugas heterogen. Jenis kluster ini dapat digunakan sebagai dasar cloud-native dari Platform for AI, dan memberikan kemampuan cloud-native yang ditingkatkan yang cocok untuk skenario AI dan Komputasi Berperforma Tinggi (HPC). Gambar berikut menunjukkan arsitektur kluster terkelola ACK Lingjun. Arsitektur ini memisahkan perangkat lunak dari perangkat keras dan terintegrasi dengan berbagai layanan Alibaba Cloud untuk menyediakan infrastruktur yang stabil, andal, efisien, dan aman untuk beban kerja AI cloud-native.
Fitur
Manajemen kluster
Kluster terkelola ACK Lingjun dan kluster ACK Pro menyediakan kemampuan manajemen kluster yang sama. ACK membuat dan mengelola bidang kontrol kluster terkelola ACK Lingjun. Secara default, bidang kontrol kluster terkelola ACK Lingjun diterapkan di tiga zona untuk memastikan ketersediaan tinggi. Anda dapat mengelola siklus hidup kluster terkelola ACK Lingjun, seperti memberikan izin, memantau, memperbarui kluster, dan mengelola komponen di dalam kluster.
Manajemen Node
Kluster terkelola ACK Lingjun menyediakan kolam node Lingjun di mana Anda dapat menerapkan node komputasi Lingjun. Kolam node Lingjun mendukung manajemen siklus hidup dan menyediakan fitur manajemen dan O&M yang sama dengan kolam node Elastic Compute Service (ECS). Misalnya, Anda dapat menambah atau menghapus node secara massal, mengonfigurasi node, memelihara node, menggunakan node yang dikelola sepenuhnya, menjadwalkan aplikasi ke node tertentu, memantau node, mendiagnosis node, dan menjalankan tugas O&M node otomatis.
AI cloud-native
Secara default, kluster terkelola ACK Lingjun menyediakan komponen untuk meningkatkan kemampuan cloud-native. Misalnya, kluster terkelola ACK Lingjun mendukung penjadwalan multi-GPU yang sadar topologi, dan mengaktifkan penjadwalan dan isolasi GPU berdasarkan eGPU, yaitu komponen virtualisasi GPU untuk kontainer yang dipercepat oleh GPU. Kluster terkelola ACK Lingjun menyediakan penjadwalan gang dan penjadwalan kapasitas, serta mendukung kebijakan penjadwalan binpack. Selain itu, kluster terkelola ACK Lingjun mendukung orkestrasi dataset dan akselerasi akses.
Keunggulan kompetitif
Keamanan dan stabilitas
Kluster terkelola ACK Lingjun menyediakan fitur kelas perusahaan yang sama dengan kluster ACK Pro dan bidang kontrol yang tersedia tinggi dan dikelola. Ini menghilangkan kebutuhan untuk membangun dan mengonfigurasi kluster secara manual. Kluster terkelola ACK Lingjun memastikan stabilitas, keandalan, dan keamanan kluster serta mendukung perjanjian tingkat layanan (SLA) yang berisi klausa kompensasi. Kluster terkelola ACK Lingjun dapat memenuhi persyaratan perusahaan dalam lingkungan produksi berskala besar.
O&M yang disederhanakan
Kluster terkelola ACK Lingjun menyediakan layanan Kubernetes-native dan terintegrasi mendalam dengan Intelligent Computing LINGJUN dan layanan Alibaba Cloud terkait. Kluster terkelola ACK Lingjun menyederhanakan operasi dan mengotomatiskan O&M untuk kluster dan node komputasi Lingjun, memberikan pengalaman manajemen yang sama dengan node ECS, dan secara signifikan mengurangi biaya adaptasi dan O&M.
Peningkatan efisiensi dan akselerasi
Kluster terkelola ACK Lingjun menyediakan berbagi GPU, penjadwalan GPU, dan penjadwalan GPU yang sadar topologi untuk meningkatkan efisiensi dan kinerja sumber daya heterogen. Kluster terkelola ACK Lingjun menyediakan berbagai kebijakan penjadwalan dan manajemen antrian pekerjaan berbasis prioritas untuk tugas AI dan HPC. Fitur-fitur ini dapat meningkatkan efisiensi eksekusi pekerjaan pelatihan AI dan tugas inferensi, serta menyediakan metode yang seragam dan standar untuk mengelola dan menyampaikan sumber daya dan beban kerja AI.