PAI-Lingjun (juga dikenal sebagai PAI-Lingjun AI Computing Service) menyediakan daya komputasi heterogen berskala besar untuk pelatihan AI berkinerja tinggi dan workload HPC. Sebagai layanan yang sepenuhnya dikelola, PAI-Lingjun menawarkan infrastruktur komputasi cerdas yang sangat skalabel dan berkinerja tinggi dengan optimisasi bawaan untuk pelatihan terdistribusi, sehingga menghilangkan kompleksitas dalam membangun dan memelihara node komputasi, sistem penyimpanan, serta jaringan RDMA. Dirancang untuk skenario AI berskala besar seperti visi komputer, pemrosesan bahasa alami, sistem rekomendasi, dan model bahasa besar (LLM), PAI-Lingjun melayani industri seperti kendaraan otonom, layanan keuangan, penelitian farmasi, komputasi ilmiah, dan aplikasi SaaS perusahaan dengan model harga fleksibel pay-as-you-go.
Arsitektur layanan
-
PAI-Lingjun menyediakan solusi kluster komputasi terintegrasi penuh antara perangkat keras dan perangkat lunak. Lapisan perangkat keras terdiri atas server Panjiu, jaringan berkinerja tinggi, penyimpanan terdistribusi, dan kemampuan manajemen kluster yang komprehensif. Tumpukan perangkat lunak menyediakan orkestrasi sumber daya, manajemen operasi cerdas, pustaka akselerasi AI, penjadwalan workload cloud-native, serta platform pengembangan lengkap yang mendukung framework utama termasuk PyTorch dan TensorFlow.
-
Komponen perangkat keras inti dari PAI-Lingjun adalah server Panjiu dan jaringan RDMA berkinerja tinggi:
-
Server Panjiu yang dikembangkan oleh Alibaba Cloud memberikan kinerja perangkat keras optimal melalui optimisasi konfigurasi multi-lapis pada subsistem CPU, memori, penyimpanan, dan GPU.
-
Arsitektur jaringan menggunakan topologi Fat-Tree dengan dukungan protokol TCP/IP dan RDMA. PAI-Lingjun mengoperasikan jaringan 25 Gbps dan 100 Gbps secara terpisah: jaringan 25 Gbps menangani manajemen server in-band, sedangkan jaringan 100 Gbps dengan beberapa NIC memungkinkan komunikasi pelatihan AI ber-throughput tinggi. Jaringan dual-uplink menyediakan ketersediaan tinggi—setiap NIC terhubung ke dua switch independen dengan automatic failover untuk menjaga konektivitas jaringan saat terjadi kegagalan tautan.
-
-
Arsitektur perangkat lunak menyediakan tumpukan berlapis kemampuan, mulai dari manajemen sumber daya di lapisan dasar hingga pustaka akselerasi, framework ML/DL, lingkungan pengembangan, hingga orkestrasi workload di lapisan aplikasi.
-
PAI-Lingjun menggunakan containerisasi Docker untuk partisi dan penjadwalan sumber daya, dengan kompatibilitas native untuk orkestrasi Kubernetes.
-
Framework Manajemen Infrastruktur Apsara menyediakan pemantauan waktu nyata dan manajemen operasional infrastruktur kluster, termasuk sumber daya komputasi, jaringan, dan penyimpanan.
-
Pustaka akselerasi dioptimalkan khusus untuk komunikasi kluster PAI-Lingjun, memberikan peningkatan kinerja untuk workload pelatihan terdistribusi.
-
Platform ini menyediakan antarmuka berbasis web untuk pengiriman pekerjaan dan pemantauan log, dengan dukungan native untuk PyTorch, TensorFlow, dan framework AI utama lainnya.
-
Mengapa memilih PAI-Lingjun
PAI-Lingjun menyediakan kluster komputasi cerdas kelas enterprise dengan kemampuan berikut:
-
Computing as a service. Menyediakan komputasi heterogen berkinerja tinggi dengan skalabilitas elastis yang mendukung puluhan ribu GPU, throughput jaringan kluster tunggal hingga 4 Pbps, dan latensi ultra-rendah sebesar 2 mikrodetik.
-
Efisiensi sumber daya tinggi. Mencapai peningkatan 3x dalam pemanfaatan sumber daya dan mempertahankan efisiensi komputasi paralel lebih dari 90% untuk workload terdistribusi.
-
Kolam komputasi terpadu. Memungkinkan integrasi tanpa hambatan dan penjadwalan terpadu untuk workload AI dan HPC di atas infrastruktur komputasi bersama.
-
Pemantauan dan manajemen komprehensif. Menyediakan platform operasi enterprise yang dirancang khusus untuk komputasi heterogen, memberikan visibilitas end-to-end mulai dari sumber daya perangkat keras hingga kinerja workload dan metrik pemanfaatan.
Manfaat
-
Percepat inovasi AI. Optimisasi kinerja full-stack meningkatkan efisiensi iterasi untuk workload komputasi-intensif lebih dari 2x.
-
Maksimalkan ROI. Penjadwalan cerdas kolam sumber daya komputasi heterogen memastikan pemanfaatan optimal, meningkatkan efisiensi hingga 3x dibandingkan penerapan tradisional.
-
Skalabilitas tanpa batas. Memenuhi kebutuhan komputasi menuntut dari model bahasa besar dan simulasi berskala besar, memastikan inovasi tidak pernah dibatasi oleh ketersediaan sumber daya komputasi.
-
Visibilitas dan kontrol lengkap. Kelola alokasi sumber daya komputasi heterogen dengan kemampuan pemantauan dan optimisasi berkelanjutan untuk menjaga kinerja konsisten.
Skenario
PAI-Lingjun dirancang khusus untuk workload AI terdistribusi berskala besar seperti visi komputer, pemrosesan bahasa alami, sistem rekomendasi, dan model bahasa besar (LLM), melayani industri seperti kendaraan otonom, layanan keuangan, penelitian farmasi, komputasi ilmiah, dan aplikasi SaaS perusahaan.
-
Pelatihan terdistribusi berskala besar.
-
Sistem daya komputasi GPU berskala ultra-besar.
Arsitektur jaringan peer-to-peer penuh dengan pooling sumber daya lengkap terintegrasi secara mulus dengan Platform for AI (PAI), mendukung PyTorch, TensorFlow, Caffe, Keras, XGBoost, dan MXNet untuk pelatihan dan inferensi AI dalam skala apa pun.
-
Infrastruktur AI.
-
Smooth scale-out. Memberikan penskalaan kinerja linear untuk memenuhi kebutuhan komputasi GPU dalam skala apa pun, mulai dari kluster kecil hingga penerapan masif.
-
Akselerasi data cerdas. Secara aktif melakukan pra-ambil data pelatihan untuk mengoptimalkan I/O data pada workload AI, secara signifikan meningkatkan efisiensi pelatihan.
-
Pemanfaatan sumber daya maksimal. Kontrol granular terhadap sumber daya heterogen meningkatkan perputaran sumber daya dan efisiensi keseluruhan kluster.
-
-
-
Kendaraan otonom.
-
Kebijakan penerapan dan penjadwalan yang kaya.
Berbagai kebijakan penjadwalan GPU memastikan eksekusi tugas yang efisien. Cloud Parallel File Storage (CPFS) yang dikombinasikan dengan jaringan RDMA memberikan akses data ber-throughput tinggi untuk workload pelatihan. Penyimpanan tiered OSS mengurangi biaya untuk set data arsip.
-
Mendukung skenario pelatihan dan simulasi.
Infrastruktur komputasi terpadu mendukung kedua jenis workload—pelatihan dan simulasi—meningkatkan efisiensi iterasi dan mengurangi biaya migrasi data melalui alur kerja terintegrasi.
-
-
AI untuk Ilmu Pengetahuan.
-
Dorong batas inovasi.
Jaringan RDMA berskala ultra-besar dengan teknologi pengendalian aliran canggih mencapai latensi end-to-end tingkat mikrodetik. Penskalaan linear mendukung komputasi paralel di puluhan ribu GPU.
-
Integrasikan ekosistem dan perluas batas inovasi.
Penjadwalan terpadu workload HPC dan AI menyediakan fondasi kolaboratif untuk penelitian ilmiah, mendorong integrasi ekosistem dan konvergensi teknologi.
-
Penelitian berbasis cloud, daya komputasi inklusif.
Ekosistem containerized cloud-native memungkinkan berbagi sumber daya mendalam untuk aplikasi AI dan HPC, mendemokratisasi akses ke sumber daya komputasi cerdas.
-
Fitur
-
Arsitektur jaringan RDMA berkecepatan tinggi. Dibangun di atas riset RDMA ekstensif Alibaba Cloud sejak 2016, menghadirkan kinerja jaringan kelas enterprise.
Alibaba Cloud mengoperasikan jaringan RDMA berskala besar di seluruh pusat datanya. Berbekal pengalaman penerapan yang luas, kami mengembangkan protokol RDMA berkinerja tinggi dengan kolaborasi end-to-end dan pengendalian kemacetan HPCC, yang diimplementasikan melalui offloading perangkat keras NIC cerdas. Arsitektur ini mengurangi latensi jaringan, meningkatkan throughput I/O, serta mengurangi degradasi kinerja akibat kegagalan jaringan atau kehilangan paket.
-
Alibaba Collective Communication Library (ACCL). PAI-Lingjun mengintegrasikan ACCL untuk komunikasi kolektif berkinerja tinggi. Dikombinasikan dengan perangkat keras switch jaringan, ACCL memberikan komunikasi bebas kemacetan untuk kluster AI dengan puluhan ribu GPU. ACCL memiliki fitur pencocokan GPU-NIC cerdas, penemuan topologi fisik otomatis, dan algoritma bebas kemacetan yang sadar topologi. Hal ini menghilangkan kemacetan jaringan, memaksimalkan efisiensi komunikasi, serta meningkatkan skalabilitas pelatihan terdistribusi. Pada skala 10.000+ GPU, ACCL mencapai efisiensi kluster linear lebih dari 80%; pada skala 100+ GPU, efisiensi komputasi melebihi 95%, memenuhi lebih dari 80% kebutuhan workload produksi.
-
Akselerasi pra-pemuatan data KSpeed. PAI-Lingjun memanfaatkan jaringan RDMA berkinerja tinggi dan ACCL untuk menghadirkan KSpeed, solusi optimisasi I/O data cerdas guna pra-pemuatan data berkinerja tinggi. Pada arsitektur terpisah penyimpanan-komputasi yang umum digunakan dalam workload AI, HPC, dan data besar, pemuatan set data pelatihan berskala besar sering kali menjadi bottleneck efisiensi. KSpeed meningkatkan kinerja I/O data hingga beberapa orde besaran.
-
Teknologi virtualisasi eGPU. Untuk mengatasi tantangan seperti permintaan workload AI berskala besar, biaya perangkat keras GPU yang tinggi, dan rendahnya pemanfaatan kluster, PAI-Lingjun menyediakan virtualisasi container eGPU. eGPU meningkatkan pemanfaatan GPU kluster melalui kemampuan berikut:
-
Partisi fleksibel berdasarkan VRAM dan daya komputasi.
-
Dukungan untuk berbagai spesifikasi.
-
Pembuatan dan penghancuran dinamis.
-
Peningkatan online.
-
Teknologi mode pengguna (user-mode) untuk keandalan lebih tinggi.
-
Batasan jaringan PAI-Lingjun
|
Batasan |
Batas |
Cara menambah kuota |
|
Jumlah maksimum Blok CIDR Lingjun yang dapat dibuat oleh satu akun dalam wilayah yang sama |
8 |
Untuk informasi selengkapnya, lihat Manage quotas. |
|
Jumlah maksimum subnet Lingjun yang dapat dibuat dalam satu Blok CIDR Lingjun |
16 |
Untuk informasi selengkapnya, lihat Manage quotas. |
|
Jumlah maksimum node Lingjun dalam satu subnet Lingjun |
1000 |
Tidak berlaku |
|
Jumlah maksimum node Lingjun dalam satu Blok CIDR Lingjun |
1000 |
Tidak berlaku |
|
Blok CIDR yang dapat dikonfigurasi untuk Blok CIDR Lingjun dan subnet Lingjun |
Anda dapat menggunakan blok CIDR kustom selain |
Tidak berlaku |
|
Jumlah maksimum instans koneksi Lingjun yang dapat dibuat oleh satu akun dalam wilayah yang sama |
16 |
Tidak berlaku |
|
Jumlah maksimum entri rute IPv4 yang dapat dipelajari oleh satu instans koneksi Lingjun dari cloud publik |
50 |
Tidak berlaku |
|
Jumlah maksimum entri rute IPv6 yang dapat dipelajari oleh satu instans koneksi Lingjun dari cloud publik |
25 |
Tidak berlaku |
|
Jumlah maksimum instans Lingjun Hub yang dapat dibuat oleh satu akun dalam wilayah yang sama |
4 |
Untuk informasi selengkapnya, lihat Manage quotas. |
|
Jumlah maksimum instans Lingjun Hub yang dapat terhubung ke satu Blok CIDR Lingjun |
1 |
Untuk informasi selengkapnya, lihat Manage quotas. |
|
Jumlah maksimum instans Lingjun Hub yang dapat terhubung ke satu instans koneksi Lingjun |
1 |
Untuk informasi selengkapnya, lihat Manage quotas. |
|
Jumlah maksimum instans koneksi Lingjun yang dapat terhubung ke satu instans Lingjun Hub |
32 |
Untuk informasi selengkapnya, lihat Manage quotas. |
|
Jumlah maksimum node Lingjun di semua Blok CIDR Lingjun dalam wilayah yang sama yang dapat didukung oleh satu instans Lingjun Hub |
2000 |
Tidak berlaku |
|
Jumlah maksimum entri kebijakan perutean yang dapat dikonfigurasi untuk satu instans Lingjun Hub |
100 |
Tidak berlaku |
|
Jumlah maksimum Alamat IP pribadi sekunder yang didukung oleh satu NIC Lingjun |
3 |
Untuk informasi selengkapnya, lihat Manage quotas. |
Spesifikasi produk dan aktivasi
-
Aktivasi: PAI-Lingjun AI Computing Service saat ini berada dalam pratinjau publik. Perwakilan penjualan Alibaba Cloud menyediakan tautan pembelian dan akun Konsol administrator kepada pengguna yang memenuhi syarat. Untuk petunjuk aktivasi, lihat Activate Lingjun.
-
Penagihan: PAI-Lingjun AI Computing Service mendukung model penagihan cicilan dan langganan. Untuk detail penagihan, lihat Billing.