全部产品
Search
文档中心

Platform For AI:Praktik Terbaik untuk PAI-EAS Spot

更新时间:Jul 06, 2025

PAI-EAS Spot menawarkan solusi hemat biaya untuk penyebaran layanan inferensi online menggunakan instans yang dapat diambil alih. Solusi ini ideal untuk skenario sensitif biaya yang dapat mengakomodasi beberapa latensi respons. Dokumen ini memberikan praktik terbaik bagi pengembang dalam menggunakan PAI-EAS Spot untuk mengelola sumber daya secara efektif, meminimalkan biaya, serta memastikan stabilitas layanan.

Skenario

  • Bisnis Non-Kritis: Aplikasi di mana gangguan layanan sesekali memiliki dampak minimal.

  • Pemrosesan Toleransi Kesalahan: Anda dapat mengelola gangguan layanan sementara melalui mekanisme ulang atau metode toleransi kesalahan lainnya.

  • Tuntutan Tinggi untuk Optimasi Biaya: Bisnis dan proyek yang bertujuan menurunkan biaya operasional dengan menggunakan sumber daya komputasi yang lebih terjangkau dan fleksibel.

Buat layanan spot

  1. Di halaman Model Online Service (EAS), klik Deploy Service. Pada bagian Custom Model Deployment, klik Custom Deployment.

  2. Di bagian Resource Deployment, pilih Public Resource sebagai tipe sumber daya. Pilih spesifikasi sumber daya (spesifikasi L atau H direkomendasikan).

    Aktifkan saklar Bidding, dan atur penawaran Anda. Untuk membantu menentukan penawaran, Anda dapat melihat kurva harga historis, yang menunjukkan tren harga pasar model selama 48 jam terakhir.

    Spot_部署

    Penting
    • Harga penawaran bukan harga sebenarnya, yang merupakan harga pasar. Harga penawaran mewakili harga maksimum yang bersedia Anda bayar. Jika harga pasar lebih rendah dari harga penawaran Anda, sumber daya tetap dialokasikan kepada Anda dan tidak dilepaskan. Anda dikenakan biaya harga pasar, bukan harga penawaran.

    • Kami sangat menyarankan Anda menetapkan harga penawaran pada 20% dari harga asli. Sebagai contoh, jika harga bayar sesuai pemakaian untuk sebuah instans adalah $2,58 per jam, harga pasar tidak mungkin melebihi 20% dari harga asli, yaitu $0,516 per jam. Strategi ini memungkinkan penghematan biaya yang signifikan sambil memastikan ketersediaan sumber daya yang stabil. Untuk informasi lebih lanjut, lihat Tentukan Instans Preemptible.

    • Kami sarankan Anda mengonfigurasi instans reguler di samping instans preemptible untuk mencegah kegagalan penyebaran layanan dalam kasus preemption instans.

  3. Setelah penyebaran layanan, Anda dapat memantau fluktuasi harga model selama 48 jam terakhir di halaman detail layanan. Wawasan ini membantu Anda lebih memahami dan mengelola variasi biaya.Spot价格曲线

Mekanisme daur ulang dan toleransi kesalahan

Mekanisme daur ulang sisi EAS

EAS biasanya menerima notifikasi sekitar 5 menit sebelum instans spot akan didaur ulang. Setelah menerima notifikasi, EAS memulai shutdown yang mulus untuk secara halus mengalihkan lalu lintas dari instans yang dijadwalkan untuk didaur ulang, sehingga mencegah gangguan layanan. Pada saat yang sama, EAS secara otomatis meluncurkan instans baru, menerapkannya berdasarkan urutan yang ditentukan dalam konfigurasi sumber daya Anda untuk meminimalkan dampak daur ulang dan menjaga layanan pelanggan tanpa gangguan.

Penting

Kami sarankan Anda mengonfigurasi instans reguler di samping instans preemptible untuk memastikan layanan yang berkelanjutan dan stabil.

Kembali ke instans spot setelah daur ulang

Jika sumber daya reguler menggantikan instans spot yang didaur ulang dan Anda ingin beralih kembali ke instans spot begitu inventaris dipulihkan, gunakan fitur Rebuild Instance.

Klik Rebuild Instance untuk melepaskan sumber daya dan membuat ulang instans dengan konfigurasi yang sama:

Spot_实例重建

Strategi konfigurasi yang direkomendasikan

Untuk meningkatkan stabilitas dan keandalan layanan serta mempercepat startup instans baru, kami merekomendasikan strategi konfigurasi berikut.

Konfigurasikan instans dengan berbagai spesifikasi

Untuk stabilitas dan keandalan layanan, diversifikasi konfigurasi sumber daya Anda dengan memilih berbagai spesifikasi. Sertakan setidaknya satu sumber daya reguler sebagai cadangan dalam konfigurasi Anda. Layanan EAS dapat menggunakan spesifikasi secara berurutan berdasarkan urutan yang ditentukan, memaksimalkan stabilitas operasi layanan. Untuk informasi lebih lanjut, lihat Tentukan Beberapa Jenis Instans.

spot_多规格

Konfigurasikan cache memori direktori lokal

Untuk mempercepat proses menarik file model saat memulai instans baru setelah daur ulang, konfigurasikan cache memori direktori lokal. Ini menggunakan memori idle untuk menyimpan file model, mengurangi waktu yang diperlukan untuk membaca file model selama penskalaan keluar dan mengurangi waktu henti layanan karena daur ulang spot.

Aktifkan Memory Caching saat membuat layanan EAS untuk meningkatkan efisiensi penskalaan instans. Untuk informasi lebih lanjut, lihat Aktifkan Caching Memori untuk Direktori Lokal.

Spot_内存缓存加速

Tabel berikut menjelaskan manfaat Memory Caching (cachefs) menggunakan model Stable Diffusion sebagai contoh. Mengaktifkan cachefs memungkinkan model dibaca dari memori instans lain dalam layanan selama penskalaan keluar (cachefs remote hit), secara signifikan mengurangi waktu pemuatan model dibandingkan dengan membaca langsung dari direktori OSS yang dipasang.

Model

Ukuran model

Waktu pemuatan model (s)

OSS mount

cachefs remote hit

anything-v4.5.safetensors

7,2G

89,88

15,18

Anything-v5.0-PRT-RE.safetensors

2,0G

16,73

5,46

cetusMix_Coda2.safetensors

3,6G

24,76

7,13

chilloutmix_NiPrunedFp32Fix.safetensors

4,0G

48,79

8,47

CounterfeitV30_v30.safetensors

4,0G

64,99

7,94

deliberate_v2.safetensors

2,0G

16,33

5,55

DreamShaper_6_NoVae.safetensors

5,6G

71,78

10,17

pastelmix-fp32.ckpt

4,0G

43,88

9,23

revAnimated_v122.safetensors

4,0G

69,38

3,20

Gunakan ACR Enterprise Edition

Untuk meningkatkan efisiensi penarikan gambar saat memulai instans baru setelah daur ulang, gunakan Container Registry (ACR) Enterprise Edition dengan percepatan gambar diaktifkan. Terapkan layanan EAS menggunakan gambar yang dipercepat dengan akhiran _accelerated. Selain itu, saat menerapkan layanan EAS, pilih VPC yang sama yang terkait dengan instans ACR Anda.

Beli ACR Enterprise Edition dan pilih Standard Edition untuk Instance Type. Aktifkan percepatan gambar saat membuat repositori gambar untuk meningkatkan efisiensi penskalaan instans baru. Untuk informasi lebih lanjut, lihat Gunakan Gambar yang Dipercepat di PAI.

Berikut adalah contoh konfigurasi gambar selama penyebaran kustom EAS:EAS_加速镜像

Beli instans ACR:

ACR_购买

Aktifkan Accelerated Image saat membuat repositori gambar:

ACR_创建仓库

Gabungkan dengan penskalaan

Untuk bisnis dengan fluktuasi beban yang signifikan, kami sarankan Anda mengaktifkan penskalaan horizontal otomatis keluar dan masuk. Gunakan kombinasi grup sumber daya khusus, penskalaan sumber daya spot, dan sumber daya reguler untuk memastikan operasi layanan yang lancar dan efisiensi biaya. Strategi konfigurasi:

  1. Amankan tingkat dasar lalu lintas layanan dengan membeli EAS subscription/pay-as-you-go grup sumber daya khusus. Konfigurasikan grup sumber daya khusus di konsol untuk memenuhi persyaratan GPU, CPU, dan memori untuk startup layanan.

  2. Aktifkan Elastic Resource Pool dan konfigurasikan beberapa spesifikasi sumber daya. Prioritaskan sumber daya spot, dan gunakan sumber daya fallback terakhir. Pendekatan ini memungkinkan ekspansi ke sumber daya spot dengan inventaris yang cukup selama waktu puncak. Jika sumber daya spot tidak mencukupi, sumber daya reguler digunakan untuk memastikan penskalaan keluar yang lancar selama puncak bisnis.

    eas弹性资源池

  3. Setelah penyebaran layanan, aktifkan Auto Scaling berdasarkan metrik bisnis Anda di halaman detail layanan. Anda dapat menggunakan General Scaling Metrics seperti QPS, Pemanfaatan CPU, dan Pemanfaatan GPU untuk penskalaan otomatis, atau Anda dapat menyesuaikan metrik sesuai kebutuhan Anda.

    image.png

    Anda juga dapat mengaktifkan Scheduled Scaling untuk menyelaraskan dengan fluktuasi lalu lintas yang dapat diprediksi seiring waktu.

    image.png

Saat membuat layanan, sumber daya grup sumber daya khusus digunakan terlebih dahulu, diikuti oleh alokasi berurutan sumber daya yang tersedia dari kolam sumber daya elastis berdasarkan pengurutan yang dikonfigurasi.

  • Sebagai contoh, jika grup sumber daya khusus sepenuhnya digunakan dan penskalaan ke kolam sumber daya publik diperlukan, sistem akan menilai berapa banyak instans yang dapat dibuat dengan inventaris saat ini dari ecs.gn61-c16g1.4xlarge. Jika sumber daya masih tidak mencukupi, maka akan mempertimbangkan ecs.gn61-c24g1.6xlarge, dan akhirnya, ecs.gn6i-c16g1.4xlarge reguler untuk instans yang tersisa.

  • Jika 8 instans diperlukan di luar grup sumber daya khusus, alokasi mungkin adalah 2 instans dari grup sumber daya khusus, 3 dari ecs.gn61-c16g1.4xlarge, 2 dari ecs.gn61-c24g1.6xlarge, dan 1 dari ecs.gn61-c16g1.4xlarge reguler.

Untuk informasi lebih lanjut tentang penskalaan EAS, lihat: