Apa itu Lingjun? - Platform For AI

Layanan Komputasi AI PAI-Lingjun (Lingjun) adalah layanan komputasi berskala besar dan berdensitas tinggi yang menyediakan kemampuan komputasi heterogen untuk pelatihan AI berperforma tinggi dan komputasi. Lingjun terutama digunakan dalam skenario pengembangan AI terdistribusi berskala besar, seperti pengenalan gambar, pemrosesan bahasa alami (NLP), rekomendasi iklan berbasis pencarian, serta model bahasa besar umum (LLM). Lingjun cocok untuk industri seperti mengemudi otonom, pengendalian risiko keuangan, penelitian farmasi, intelijen ilmiah, metaverse, Internet, dan vendor perangkat lunak independen (ISV). Anda hanya dikenakan biaya untuk sumber daya yang dikonsumsi oleh pelatihan AI. Anda dapat menggunakan infrastruktur komputasi cerdas yang sangat skalabel, berperforma tinggi, dan hemat biaya tanpa perlu membuat, menyetel, atau memelihara node komputasi kompleks, sistem penyimpanan, dan jaringan Remote Direct Memory Access (RDMA).

Arsitektur

Lingjun adalah layanan kluster komputasi yang mengintegrasikan perangkat lunak dan perangkat keras. Perangkat keras mencakup server, jaringan, dan sistem penyimpanan. Lingjun menyampaikan dan mengelola perangkat keras sebagai kluster. Perangkat lunak mencakup manajemen sumber daya komputasi dan operasi & pemeliharaan (O&M), kit akselerasi AI, manajemen tugas berbasis cloud-native, serta platform pengembangan AI yang komprehensif. Lingjun mendukung kerangka AI umum seperti PyTorch dan TensorFlow.
Komponen perangkat keras inti yang mendasari Lingjun terdiri dari server Panjiu dan jaringan RDMA berperforma tinggi.
- Server Panjiu yang dikembangkan oleh Alibaba Cloud dioptimalkan secara ekstensif dalam konfigurasi untuk Lingjun guna memastikan performa perangkat keras.
- Jaringan mendukung topologi jaringan Fat-Tree yang umum dan beberapa protokol komunikasi seperti TCP/IP dan RDMA. Jaringan 25 Gbit/s dan 100 Gbit/s dari Lingjun dibangun secara independen. Jaringan 25 Gbit/s digunakan untuk manajemen in-band server. Jaringan 100 Gbit/s menggunakan beberapa kartu antarmuka jaringan (NIC) untuk komunikasi efisien dalam layanan pelatihan AI. Untuk meningkatkan ketersediaan jaringan, Lingjun mendukung jaringan dual-uplink. Dalam mode ini, setiap NIC terhubung ke dua vSwitch melalui dua port. Jika koneksi ke satu vSwitch gagal, koneksi ke vSwitch lainnya secara otomatis digunakan untuk memastikan ketersediaan jaringan.
Arsitektur perangkat lunak terdiri dari beberapa komponen, termasuk manajemen sumber daya, pustaka akselerasi komputasi, kerangka pembelajaran mesin dan pembelajaran mendalam, lingkungan pengembangan, serta manajemen tugas dari bawah ke atas.
- Dalam hal manajemen sumber daya, Lingjun menggunakan Docker untuk membagi dan menjadwalkan sumber daya serta kompatibel dengan alat orkestrasi seperti Kubernetes.
- Dalam hal O&M sistem dan pemantauan, Lingjun menggunakan Apsara Infrastructure Management Framework milik Alibaba Group untuk memantau sumber daya dasar dan status kluster secara real-time.
- Pustaka akselerasi disesuaikan dan dioptimalkan secara mendalam untuk komunikasi kluster Lingjun.
- Sistem komputasi memungkinkan Anda mengirimkan tugas dan melihat log tugas di konsol serta mendukung kerangka komputasi AI utama, seperti PyTorch dan TensorFlow.

Mengapa Lingjun?

Anda dapat menggunakan Lingjun untuk dengan mudah membangun kluster AI yang memiliki manfaat berikut:

Komputasi sebagai Layanan. Kluster Lingjun menyediakan layanan komputasi heterogen berperforma tinggi dan elastisitas tinggi serta dapat diskalakan hingga mendukung puluhan ribu GPU. Lebar pita jaringan kluster tunggal mencapai 4 Pbit/s dengan latensi serendah 2 mikrodetik.
Pemanfaatan sumber daya tinggi. Pemanfaatan sumber daya meningkat tiga kali lipat, dan efisiensi komputasi paralel meningkat lebih dari 90%.
Kolam daya komputasi terpadu. Kluster Lingjun mendukung alokasi dan penjadwalan daya komputasi terpusat dalam skenario AI dan komputasi berperforma tinggi.
Manajemen dan pemantauan daya komputasi. Lingjun menyediakan platform O&M dan manajemen yang disesuaikan secara mendalam untuk daya komputasi heterogen. Platform ini mengimplementasikan pemantauan dan manajemen komprehensif daya komputasi heterogen, sumber daya kolam, dan efisiensi.

Manfaat

Inovasi AI yang dipercepat. Performa end-to-end dipercepat. Efisiensi iterasi proyek komputasi-intensif dapat ditingkatkan lebih dari dua kali lipat.
ROI maksimal. Pengumpulan dan penjadwalan efisien daya komputasi heterogen memastikan bahwa setiap sumber daya komputasi sepenuhnya dimanfaatkan. Pemanfaatan sumber daya meningkat tiga kali lipat.
Adaptasi untuk semua skala bisnis. Lingjun dapat menyediakan daya komputasi yang diperlukan untuk simulasi model besar dan proyek berskala besar. Ini mencegah inovasi dibatasi oleh daya komputasi.
Visualisasi dan kontrol. Lingjun membantu Anda mengelola alokasi daya komputasi heterogen dengan cara yang mudah. Anda dapat menggunakan Lingjun untuk terus memantau dan mengoptimalkan penggunaan daya komputasi Anda.

Skenario

Lingjun terutama digunakan dalam skenario pengembangan AI terdistribusi berskala besar, seperti pengenalan gambar, NLP, rekomendasi iklan berbasis pencarian, dan LLM umum. Lingjun cocok untuk industri seperti mengemudi otonom, pengendalian risiko keuangan, penelitian farmasi, intelijen ilmiah, metaverse, Internet, dan ISV.

Pelatihan terdistribusi berskala besar
- Sistem komputasi dengan jumlah GPU ultra-besar
  Arsitektur jaringan peer-to-peer dan sumber daya kolam dapat digunakan dengan Platform Pembelajaran Mesin untuk AI (PAI). Lingjun mendukung berbagai kerangka pelatihan, seperti PyTorch, TensorFlow, Caffe, Keras, XGBoost, dan Apache MXNet, serta dapat memenuhi persyaratan berbagai layanan pelatihan dan inferensi AI.
- Infrastruktur AI
  - Skalabilitas vertikal yang lancar. Lingjun dapat memenuhi persyaratan GPU dalam skala yang berbeda. Lingjun mendukung skalabilitas vertikal yang lancar untuk meningkatkan performa komputasi secara linear.
  - Akselerasi data cerdas. Lingjun menyediakan akselerasi data cerdas untuk skenario pelatihan AI dengan mempramuat data yang diperlukan untuk pelatihan guna meningkatkan efisiensi pelatihan.
  - Peningkatan pemanfaatan sumber daya. Lingjun mendukung manajemen granular halus sumber daya heterogen untuk meningkatkan efisiensi pergantian sumber daya.
Mengemudi otonom
- Kebijakan penyebaran dan penjadwalan yang kaya
  Lingjun mendukung beberapa kebijakan penjadwalan GPU untuk memastikan pelaksanaan tugas pelatihan yang efisien. Lingjun menggunakan Cloud Parallel File Storage (CPFS) dan arsitektur jaringan RDMA untuk memastikan penyediaan data berperforma tinggi dan komputasi I/O. Lingjun juga dapat menggunakan fitur penyimpanan bertingkat Object Storage Service (OSS) untuk menyimpan data arsip, yang mengurangi biaya penyimpanan.
- Dukungan untuk pelatihan dan simulasi
  Lingjun menyediakan daya komputasi polling secara cerdas dan mendukung skenario pelatihan dan simulasi. Ini meningkatkan efisiensi iterasi dan mengurangi biaya migrasi data dalam mode kolaborasi.
Intelijen ilmiah
- Batas inovasi yang diperluas
  Berdasarkan jaringan RDMA ultra-cepat dan teknologi kontrol aliran komunikasi untuk pusat data, Lingjun mengurangi latensi komunikasi end-to-end menjadi mikrodetik. Berdasarkan elastisitas linear ultra-besar, kluster Lingjun dapat diskalakan hingga mendukung puluhan ribu GPU untuk komputasi paralel.
- Ekosistem terintegrasi dan batas inovasi yang diperluas
  Lingjun mendukung penjadwalan terpusat tugas komputasi berperforma tinggi dan AI, menyediakan basis kolaboratif terpadu untuk penelitian ilmiah dan AI, serta memfasilitasi integrasi teknologi dan ekosistem.
- Penelitian ilmiah berbasis cloud dan daya komputasi inklusif
  Lingjun mendukung ekosistem aplikasi AI dan komputasi berperforma tinggi berbasis cloud-native dan kontainer, berbagi sumber daya mendalam, serta daya komputasi cerdas inklusif.

Fitur

Arsitektur jaringan RDMA berkecepatan tinggi. Alibaba Group telah berinvestasi dalam penelitian khusus tentang Remote Direct Memory Access (RDMA) sejak 2016.
Alibaba Group telah membangun jaringan berkecepatan tinggi di pusat data berskala besar. Berdasarkan praktik penerapan skala besar jaringan RDMA, Alibaba Cloud secara mandiri mengembangkan protokol RDMA berperforma tinggi dan algoritma High Performance Computing and Communications (HPCC) untuk kontrol kemacetan berdasarkan kolaborasi klien dan jaringan. Alibaba Cloud juga mengimplementasikan offloading perangkat keras atas protokol berbasis NIC cerdas. Ini mengurangi latensi jaringan end-to-end, meningkatkan throughput I/O jaringan, dan secara efektif mengurangi dan mencegah kerugian performa aplikasi lapisan atas yang disebabkan oleh pengecualian jaringan tradisional seperti gangguan jaringan dan blackhole.
Perpustakaan Komunikasi Kolektif Alibaba (ACCL) berperforma tinggi. Lingjun mendukung ACCL berperforma tinggi. ACCL dapat digunakan bersama dengan perangkat keras seperti vSwitch untuk menyediakan kemampuan komunikasi bebas kemacetan dan berperforma tinggi untuk kluster AI yang berisi puluhan ribu GPU. Alibaba Cloud menggunakan ACCL untuk mengimplementasikan pencocokan cerdas GPU dan NIC, identifikasi otomatis topologi fisik di dalam dan luar node, serta algoritma penjadwalan yang sadar topologi. Ini menghilangkan kemacetan jaringan, mempercepat komunikasi jaringan, dan meningkatkan elastisitas sistem pelatihan terdistribusi. Untuk kluster Lingjun yang berisi puluhan ribu GPU, lebih dari 80% kapabilitas kluster linier dapat dimanfaatkan. Untuk kluster Lingjun yang berisi ratusan GPU, lebih dari 95% daya komputasi dapat digunakan secara efektif, yang dapat memenuhi persyaratan lebih dari 80% skenario bisnis.
KSpeed berperforma tinggi untuk akselerasi pra-pemuatan data. Berdasarkan jaringan RDMA berperforma tinggi dan ACCL, Lingjun mengembangkan KSpeed berperforma tinggi untuk akselerasi pra-pemuatan data untuk mengoptimalkan data I/O secara cerdas. Arsitektur pemisahan komputasi-penyimpanan banyak digunakan dalam skenario AI, komputasi berperforma tinggi, dan big data. Namun, pemuatan sejumlah besar data pelatihan menyebabkan hambatan efisiensi. Alibaba Cloud menggunakan KSpeed untuk meningkatkan performa data I/O dalam beberapa kali lipat.
eGPU untuk virtualisasi kontainer yang dipercepat GPU. Untuk menyelesaikan masalah yang mungkin terjadi dalam skenario bisnis aktual, seperti tugas AI yang terlalu besar, biaya sumber daya perangkat keras GPU yang tinggi, dan pemanfaatan GPU yang rendah, Lingjun mendukung eGPU, yaitu teknologi virtualisasi GPU yang dapat secara efektif meningkatkan pemanfaatan GPU kluster AI. eGPU memiliki manfaat berikut:
- Isolasi GPU berdasarkan memori video dan daya komputasi.
- Spesifikasi ganda.
- Pembuatan dan penghancuran dinamis.
- Upgrade panas.
- Teknologi mode pengguna untuk keandalan yang lebih tinggi.

Batasan pada jaringan Lingjun

Item	Batas	Metode untuk meningkatkan kuota
Jumlah maksimum Lingjun Virtual Private Datacenters (VPD) yang dapat dibuat menggunakan satu akun Alibaba Cloud di wilayah yang sama	8	Untuk informasi lebih lanjut, lihat Kelola kuota.
Jumlah maksimum subnet Lingjun yang dapat dibuat dalam satu VPD Lingjun	16	Untuk informasi lebih lanjut, lihat Kelola kuota.
Jumlah maksimum node yang dapat diterapkan dalam satu subnet Lingjun	1.000	Tidak tersedia
Jumlah maksimum node yang dapat diterapkan dalam satu VPD Lingjun	1.000	Tidak tersedia
Blok CIDR yang dapat dikonfigurasikan sebagai blok CIDR VPD Lingjun dan subnet Lingjun	Anda dapat mengonfigurasi blok CIDR kustom selain `100.64.0.0/10`, `224.0.0.0/4`, `127.0.0.0/8`, `169.254.0.0/16`, dan subnet mereka sebagai blok CIDR VPD Lingjun.	Tidak tersedia
Jumlah maksimum instance koneksi Lingjun yang dapat dibuat menggunakan satu akun Alibaba Cloud di wilayah yang sama	16	Tidak tersedia
Jumlah maksimum rute IPv4 yang dapat dipelajari dari cloud publik Alibaba Cloud oleh satu instance koneksi Lingjun	50	Tidak tersedia
Jumlah maksimum rute IPv6 yang dapat dipelajari dari cloud publik Alibaba Cloud oleh satu instance koneksi Lingjun	25	Tidak tersedia
Jumlah maksimum instance Hub Lingjun yang dapat dibuat menggunakan satu akun Alibaba Cloud di wilayah yang sama	4	Untuk informasi lebih lanjut, lihat Kelola kuota.
Jumlah maksimum instance Hub Lingjun yang dapat terhubung ke satu VPD Lingjun	1	Untuk informasi lebih lanjut, lihat Kelola kuota.
Jumlah maksimum instance Hub Lingjun yang dapat terhubung ke satu instance koneksi Lingjun	1	Untuk informasi lebih lanjut, lihat Kelola kuota.
Jumlah maksimum instance koneksi Lingjun yang dapat terhubung ke satu instance Hub Lingjun	32	Untuk informasi lebih lanjut, lihat Kelola kuota.
Jumlah maksimum node di semua VPD Lingjun yang didukung oleh satu instance Hub Lingjun di wilayah yang sama	2.000	Tidak tersedia
Jumlah maksimum entri kebijakan routing yang dapat dikonfigurasikan untuk satu instance Hub Lingjun	100	Tidak tersedia
Jumlah maksimum alamat IP pribadi sekunder yang didukung oleh satu NIC Lingjun	3	Untuk informasi lebih lanjut, lihat Kelola kuota.

Spesifikasi layanan dan aktivasi

Lingjun sedang dalam pratinjau publik. Staf bisnis Alibaba Cloud secara proaktif memberikan calon pelanggan dengan tautan ke halaman pembelian dan akun administrator yang digunakan untuk masuk ke konsol layanan. Untuk informasi lebih lanjut tentang cara mengaktifkan Lingjun, lihat Aktifkan Layanan Komputasi AI Lingjun dan beli sumber daya.
Lingjun mendukung metode penagihan cicilan dan langganan. Untuk informasi lebih lanjut, lihat Penagihan sumber daya Lingjun (versi penyewa tunggal).