Gambaran Umum Penyebaran Layanan Inferensi AI di Kluster Kubernetes - Container Service for Kubernetes

Anda dapat menggunakan alat baris perintah Arena yang disediakan oleh suite AI cloud-native untuk menjadwalkan beban kerja AI. Alat ini memungkinkan Anda menyebarkan model yang telah dilatih sebagai layanan inferensi di kluster Container Service for Kubernetes (ACK). ACK menyediakan penskalaan otomatis, pembagian dan penjadwalan GPU, serta pemantauan kinerja untuk mengurangi biaya O&M dari layanan inferensi yang diterapkan di kluster ACK. Topik ini menjelaskan cara menggunakan suite AI cloud-native untuk menyebarkan model sebagai layanan inferensi di kluster ACK.

Penting

NVIDIA Triton Server dan TensorFlow Serving dalam ack-arena adalah komponen sumber terbuka gratis yang disediakan oleh komunitas atau perusahaan sumber terbuka pihak ketiga. Anda dapat memilih untuk menginstal komponen yang sesuai dan mengonfigurasi server untuk menyebarkan model inferensi sebagai layanan, lalu menggunakan alat pengujian dan optimasi model yang relevan.

Namun, Alibaba Cloud tidak bertanggung jawab atas stabilitas, batasan layanan, dan kepatuhan keamanan dari komponen pihak ketiga. Anda harus memperhatikan dengan cermat situs resmi komunitas atau perusahaan sumber terbuka pihak ketiga dan pembaruan pada platform hosting kode, serta membaca dan mematuhi lisensi sumber terbuka. Anda bertanggung jawab atas risiko potensial apa pun terkait pengembangan aplikasi, pemeliharaan, pemecahan masalah, dan keamanan akibat penggunaan komponen pihak ketiga.

Tabel berikut menjelaskan jenis-jenis layanan inferensi yang didukung oleh suite AI cloud-native.

Jenis Layanan Inferensi	Deskripsi	Referensi
Tugas Inferensi yang Menggunakan GPU Bersama	Untuk meningkatkan pemanfaatan GPU, Anda dapat menggunakan Arena untuk mengirimkan beberapa tugas inferensi yang menggunakan GPU yang sama untuk berbagi memori GPU dan daya komputasi.	Kirim Tugas Inferensi untuk Menggunakan Sumber Daya GPU Bersama
Layanan Inferensi yang Diterapkan dari Model TensorFlow	Anda dapat menggunakan Arena dan TensorFlow Serving untuk menyebarkan model TensorFlow sebagai layanan inferensi.	Sebarkan Model TensorFlow sebagai Layanan Inferensi
Layanan Inferensi yang Diterapkan dari Model PyTorch	Anda dapat menggunakan NVIDIA Triton Inference Server atau TorchServe untuk menyebarkan model PyTorch sebagai layanan inferensi.	Kirim Tugas Inferensi untuk Menggunakan Sumber Daya GPU Bersama
Layanan Inferensi Elastis Berbasis Kontainer	Anda dapat menyebarkan layanan inferensi elastis pada Elastic Compute Service (ECS) atau Elastic Container Instance. Ini meningkatkan elastisitas dan mengurangi biaya.	Inferensi Elastis Berbasis Elastic Container Instance Inferensi Elastis Berbasis ECS