Setelah model dilatih, Anda dapat menggunakan Elastic Algorithm Service (EAS) untuk menerapkannya sebagai layanan inferensi online atau aplikasi web AI. EAS mendukung sumber daya heterogen dan menawarkan fitur seperti Penyesuaian Skala Otomatis, Uji stres satu klik, Rilis canary, serta Pemantauan waktu nyata untuk memastikan stabilitas layanan dalam skenario konkurensi tinggi dengan biaya lebih rendah.
EAS Fitur

Penagihan
Ikhtisar Penagihan
Saat menggunakan EAS untuk menerapkan layanan, Anda mungkin dikenakan biaya untuk sumber daya komputasi, disk sistem, dan gateway khusus.
Sumber daya komputasi: Termasuk sumber daya publik, sumber daya khusus, dan Sumber daya komputasi cerdas Lingjun.
(Opsional) Disk sistem: Menyediakan kuota gratis, termasuk 30 GB untuk setiap instans yang dibuat menggunakan sumber daya publik dan 200 GB untuk setiap instans yang dibuat menggunakan sumber daya khusus. Anda dikenakan biaya untuk disk sistem tambahan.
(Opsional) Gateway khusus: Secara default, gateway bersama gratis digunakan. Jika Anda memerlukan isolasi keamanan, kontrol akses, atau nama domain kustom, Anda dapat membeli gateway khusus. Untuk menggunakan gateway khusus, Anda harus mengonfigurasinya secara manual.
EAS menyediakan metode penagihan berikut:
Bayar sesuai penggunaan: Anda dikenakan biaya berdasarkan waktu berjalan layanan (bukan jumlah permintaan). Metode ini cocok untuk skenario permintaan yang tidak pasti dan fluktuatif.
Langganan: Metode ini lebih hemat biaya dan cocok untuk skenario bisnis jangka panjang yang stabil.
EAS menyediakan Stable Diffusion web UI Serverless Edition dan ComfyUI Serverless Edition yang dapat Anda gunakan untuk menerapkan layanan secara gratis. Anda hanya dikenakan biaya berdasarkan durasi inferensi aktual saat layanan dipanggil.
Jika Anda menggunakan layanan Alibaba Cloud lainnya, seperti Elastic IP Address (EIP), Object Storage Service (OSS), dan File Storage NAS, biaya akan timbul.
Untuk informasi lebih lanjut, lihat Penagihan Layanan Algoritma Elastis (EAS).
Alur kerja penggunaan
Langkah 1: Persiapkan
Siapkan sumber daya inferensi
Pilih tipe sumber daya EAS yang sesuai berdasarkan ukuran model, persyaratan konkurensi, dan anggaran Anda. Sumber daya EAS khusus atau Sumber daya komputasi cerdas Lingjun harus dibeli sebelum digunakan. Untuk informasi lebih lanjut tentang pemilihan dan pembelian sumber daya, lihat Ikhtisar sumber daya penyebaran EAS.
Siapkan file model dan kode
Persiapkan model yang telah dilatih, file kode, dan dependensi lainnya. Unggah file-file ini ke layanan penyimpanan cloud yang ditentukan, seperti Object Storage Service (OSS). Anda kemudian dapat mengakses data yang diperlukan untuk penyebaran layanan dengan menggunakan pemasangan penyimpanan.
Langkah 2: Terapkan layanan
Alat penyebaran: Anda dapat menerapkan dan mengelola layanan menggunakan Konsol PAI-EAS, alat baris perintah EASCMD, atau SDK.
Konsol: Menyediakan metode penyebaran kustom dan penyebaran berbasis skenario. Konsol ramah pengguna dan ideal untuk pemula.
Alat baris perintah EASCMD: Mendukung pembuatan layanan, pembaruan, penampilan, dan lainnya. Cocok untuk insinyur algoritma yang terbiasa dengan penyebaran EAS.
SDK: Cocok untuk penjadwalan dan O&M berskala besar dan seragam.
Metode penyebaran: Mendukung penyebaran berbasis citra (direkomendasikan) dan penyebaran berbasis Processor. Untuk perbedaan, lihat Prinsip penyebaran.
Langkah 3: Panggil dan uji layanan
Terapkan model sebagai aplikasi WebUI: Buka halaman interaktif di browser Anda dari Konsol untuk langsung merasakan kemampuan model.
Terapkan model sebagai layanan API:
Gunakan debugging layanan online untuk mengirim permintaan HTTP dan memverifikasi bahwa fitur inferensi berfungsi sesuai harapan.
Buat panggilan sinkron atau asinkron melalui API. EAS mendukung beberapa metode pemanggilan layanan, termasuk melalui gateway bersama, gateway khusus, dan koneksi langsung berkecepatan tinggi.
Gunakan alat uji stres universal bawaan di EAS untuk melakukan Uji stres satu klik pada layanan yang telah diterapkan. Ini membantu Anda mengevaluasi performa layanan di bawah tekanan dan memahami kapasitas inferensinya. Untuk informasi lebih lanjut tentang uji stres, lihat Uji stres otomatis.
Langkah 4: Pantau dan skalakan layanan
Setelah layanan berjalan, aktifkan pemantauan dan peringatan layanan untuk tetap mendapat informasi tentang penggunaan sumber daya, metrik performa, dan anomali potensial, memastikan layanan berjalan lancar.
Aktifkan penskalaan horizontal atau penskalaan terjadwal untuk mencapai manajemen real-time, dinamis atas sumber daya komputasi layanan online. Untuk informasi lebih lanjut, lihat Penyesuaian Skala Otomatis.
Langkah 5: Gunakan layanan inferensi asinkron
Untuk permintaan yang memakan waktu, seperti pembuatan teks-ke-gambar atau pemrosesan video, aktifkan Layanan inferensi asinkron. Layanan antrian menerima permintaan, dan setelah diproses, hasilnya ditulis ke antrian output. Klien kemudian meminta hasil secara asinkron. Ini mencegah backlog permintaan dan kehilangan data, meningkatkan throughput sistem. EAS mendukung penyesuaian skala otomatis berdasarkan backlog antrian untuk secara cerdas menyesuaikan jumlah instans. Untuk informasi lebih lanjut, lihat Layanan inferensi asinkron.
Langkah 6: Perbarui layanan
Dalam daftar layanan inferensi, klik Update di kolom Actions layanan target untuk memperbarui versi layanan.
Layanan sementara terganggu selama pembaruan, yang dapat menyebabkan permintaan bergantung gagal. Lanjutkan dengan hati-hati.
Setelah pembaruan layanan selesai, klik versi saat ini untuk melihat Version Information atau beralih versi layanan.
Mulai Cepat
Skenario dan contoh
LLM: Terapkan model bahasa besar (LLMs) | Terapkan model MoE menggunakan paralelisme ahli dan pemisahan PD
AIGC (AI-Generated Content): Pembuatan video AI - Penyebaran ComfyUI | Seni AI - Penyebaran SDWebUI
Lainnya: Praktik terbaik untuk mengakses gateway khusus lintas VPC menggunakan CEN | Praktik terbaik untuk instans Spot PAI-EAS
FAQ
T: Apa perbedaan antara sumber daya khusus dan publik di EAS?
Perbedaan utama terletak pada isolasi performa, biaya, dan jaminan ketersediaan.
Sumber daya publik: Cocok untuk pengembangan, pengujian, atau aplikasi skala kecil dengan prioritas biaya dan toleransi terhadap fluktuasi performa. Ini adalah sumber daya bersama, sehingga Anda mungkin mengalami konflik sumber daya selama jam sibuk.
Sumber daya khusus: Ideal untuk aplikasi bisnis inti tingkat produksi yang memerlukan stabilitas dan performa tinggi. Sumber daya ini diisolasi secara fisik, menghilangkan risiko preemption. Anda juga harus membeli sumber daya khusus untuk mengunci tipe instans tertentu dengan inventaris terbatas.
Fitur Kolam sumber daya elastis memberikan pendekatan hibrida: jika sumber daya khusus sepenuhnya dimanfaatkan, EAS dapat secara otomatis menambah skala ke sumber daya publik untuk menangani lonjakan trafik, menyeimbangkan biaya dengan stabilitas layanan.
T: Mengapa saya harus menggunakan EAS daripada mengelola sendiri layanan inferensi model saya?
EAS adalah layanan terkelola sepenuhnya yang mengelola overhead operasional terkait penyebaran dan pemeliharaan infrastruktur inferensi model.
Dengan menggunakan EAS, Anda menyerahkan tugas-tugas berikut ini:
Penjadwalan sumber daya, pemulihan kesalahan, dan pemantauan waktu nyata.
Mengimplementasikan fitur kompleks seperti auto-scaling dan rilis canary dari awal.
Solusi ini memungkinkan tim Anda fokus pada pengembangan model, alih-alih manajemen infrastruktur, sehingga mengurangi biaya O&M dan mempercepat time-to-market.
T: Bagaimana cara memecahkan masalah kesalahan umum ketika layanan EAS saya gagal?
Untuk panduan komprehensif dalam mendiagnosis dan menyelesaikan masalah penyebaran dan runtime umum, lihat FAQ EAS.