Anda dapat menggunakan alat baris perintah Arena yang disediakan oleh suite AI cloud-native untuk menjadwalkan beban kerja AI. Alat ini memungkinkan Anda menyebarkan model yang telah dilatih sebagai layanan inferensi di kluster Container Service for Kubernetes (ACK). ACK menyediakan penskalaan otomatis, pembagian dan penjadwalan GPU, serta pemantauan kinerja untuk mengurangi biaya O&M dari layanan inferensi yang diterapkan di kluster ACK. Topik ini menjelaskan cara menggunakan suite AI cloud-native untuk menyebarkan model sebagai layanan inferensi di kluster ACK.
NVIDIA Triton Server dan TensorFlow Serving dalam ack-arena adalah komponen sumber terbuka gratis yang disediakan oleh komunitas atau perusahaan sumber terbuka pihak ketiga. Anda dapat memilih untuk menginstal komponen yang sesuai dan mengonfigurasi server untuk menyebarkan model inferensi sebagai layanan, lalu menggunakan alat pengujian dan optimasi model yang relevan.
Namun, Alibaba Cloud tidak bertanggung jawab atas stabilitas, batasan layanan, dan kepatuhan keamanan dari komponen pihak ketiga. Anda harus memperhatikan dengan cermat situs resmi komunitas atau perusahaan sumber terbuka pihak ketiga dan pembaruan pada platform hosting kode, serta membaca dan mematuhi lisensi sumber terbuka. Anda bertanggung jawab atas risiko potensial apa pun terkait pengembangan aplikasi, pemeliharaan, pemecahan masalah, dan keamanan akibat penggunaan komponen pihak ketiga.
Tabel berikut menjelaskan jenis-jenis layanan inferensi yang didukung oleh suite AI cloud-native.
Jenis Layanan Inferensi | Deskripsi | Referensi |
Tugas Inferensi yang Menggunakan GPU Bersama | Untuk meningkatkan pemanfaatan GPU, Anda dapat menggunakan Arena untuk mengirimkan beberapa tugas inferensi yang menggunakan GPU yang sama untuk berbagi memori GPU dan daya komputasi. | Kirim Tugas Inferensi untuk Menggunakan Sumber Daya GPU Bersama |
Layanan Inferensi yang Diterapkan dari Model TensorFlow | Anda dapat menggunakan Arena dan TensorFlow Serving untuk menyebarkan model TensorFlow sebagai layanan inferensi. | |
Layanan Inferensi yang Diterapkan dari Model PyTorch | Anda dapat menggunakan NVIDIA Triton Inference Server atau TorchServe untuk menyebarkan model PyTorch sebagai layanan inferensi. | Kirim Tugas Inferensi untuk Menggunakan Sumber Daya GPU Bersama |
Layanan Inferensi Elastis Berbasis Kontainer | Anda dapat menyebarkan layanan inferensi elastis pada Elastic Compute Service (ECS) atau Elastic Container Instance. Ini meningkatkan elastisitas dan mengurangi biaya. |