全部产品
Search
文档中心

Function Compute:FAQ Instans yang Dipercepat GPU

更新时间:Jan 30, 2026

Topik ini menjelaskan masalah umum terkait instans yang dipercepat GPU dan menyediakan solusinya.

Apa versi driver dan CUDA untuk instans Function Compute yang dipercepat GPU?

Versi komponen untuk instans yang dipercepat GPU dibagi menjadi dua bagian:

  • Versi driver: Ini mencakup kernel mode driver nvidia.ko dan CUDA user mode driver libcuda.so. Driver untuk instans Function Compute yang dipercepat GPU disediakan oleh NVIDIA dan dideploy oleh platform Function Compute. Versi driver untuk instans yang dipercepat GPU dapat berubah karena iterasi fitur, peluncuran model kartu baru, perbaikan bug, atau masa berlaku siklus hidup driver. Hindari menambahkan konten spesifik driver ke dalam gambar kontainer Anda. Untuk informasi lebih lanjut, lihat Apa yang harus saya lakukan jika driver NVIDIA tidak ditemukan?.

  • Versi CUDA Toolkit: Ini mencakup CUDA Runtime, cuDNN, dan cuFFT. Anda menentukan versi CUDA Toolkit saat membangun gambar kontainer.

Driver GPU dan CUDA Toolkit dirilis oleh NVIDIA. Keduanya memiliki korespondensi versi tertentu. Untuk informasi lebih lanjut, lihat CUDA Toolkit Release Notes untuk versi yang relevan.

Function Compute saat ini menggunakan versi driver 580.95.05. Versi CUDA user mode driver yang sesuai adalah 13.0. Untuk kompatibilitas terbaik, gunakan versi CUDA Toolkit yang 11.8 atau lebih baru, tetapi tidak melebihi versi CUDA user mode driver yang disediakan oleh platform.

Apa yang harus saya lakukan jika mengalami CUFFT_INTERNAL_ERROR selama eksekusi?

Pustaka cuFFT di CUDA 11.7 memiliki masalah kompatibilitas maju (forward compatibility) yang diketahui yang dapat menyebabkan error ini pada model kartu yang lebih baru. Untuk mengatasi masalah ini, upgrade ke CUDA 11.8 atau versi yang lebih baru. Untuk informasi lebih lanjut tentang model kartu GPU, lihat Tipe dan spesifikasi instans.

Sebagai contoh, dalam PyTorch, Anda dapat menggunakan potongan kode berikut untuk memverifikasi upgrade tersebut. Jika tidak ada error yang dilaporkan, maka upgrade berhasil.

import torch
out = torch.fft.rfft(torch.randn(1000).cuda())

Bagaimana cara mengatasi error CUDA GPG yang terjadi saat membangun gambar?

Error GPG dilaporkan selama pembuatan gambar. Pesan error-nya sebagai berikut.

W: GPG error: https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64  InRelease: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY A4B469963BF863CC
E: The repository 'https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease' is not signed.

Tambahkan skrip berikut setelah perintah RUN rm di Dockerfile Anda, lalu bangun ulang gambarnya.

RUN apt-key adv --keyserver keyserver.ubuntu.com --recv-keys A4B469963BF863CC

Mengapa tipe instans yang dipercepat GPU saya ditampilkan sebagai g1?

Mengatur tipe instans ke g1 sama dengan mengaturnya ke fc.gpu.tesla.1. Untuk informasi lebih lanjut, lihat Spesifikasi.

Mengapa instans saya gagal dimulai?

Instans dapat gagal dimulai karena alasan berikut:

  • Timeout startup

    • Kode error: "FunctionNotStarted"

    • Pesan error: "Function instance health check failed on port XXX in 120 seconds"

    • Solusi: Periksa logika startup aplikasi untuk tugas-tugas seperti mengunduh model dari jaringan publik atau memuat model besar yang berukuran lebih dari 10 GB. Jalankan server web terlebih dahulu, lalu muat modelnya.

  • Jumlah maksimum instans untuk fungsi atau wilayah telah tercapai

    • Kode error: "ResourceThrottled"

    • Pesan error: "Reserve resource exceeded limit"

    • Solusi: Secara default, jumlah maksimum GPU fisik untuk satu Akun Alibaba Cloud di suatu wilayah adalah 30. Nilai aktual mengacu pada informasi di Quota Center. Jika Anda memerlukan lebih banyak GPU fisik, kunjungi Quota Center untuk mengajukan permintaan.

Apa yang harus saya lakukan jika instans GPU elastis tidak dapat dibuat dan muncul error "ResourceExhausted" atau "ResourceThrottled"?

Sumber daya GPU terbatas. Fluktuasi pada kolam sumber daya dapat mencegah instans GPU elastis dibuat tepat waktu untuk memenuhi permintaan pemanggilan. Untuk memastikan pengiriman sumber daya yang dapat diprediksi, konfigurasikan jumlah minimum instans untuk fungsi Anda agar sumber daya dapat dicadangkan sebelumnya. Untuk informasi lebih lanjut, lihat Konfigurasi kebijakan elastis dengan jumlah minimum instans.

Berapa batas ukuran gambar GPU?

Batas ukuran gambar berlaku untuk gambar terkompresi, bukan gambar tak terkompresi. Anda dapat melihat ukuran gambar terkompresi di Konsol Container Registry. Anda juga dapat menjalankan perintah docker images secara lokal untuk menanyakan ukuran gambar tak terkompresi.

Umumnya, gambar yang berukuran kurang dari 20 GB sebelum dikompresi dapat dideploy dan digunakan di Function Compute.

Apa yang harus saya lakukan jika akselerasi gambar GPU gagal?

Saat ukuran gambar meningkat, waktu yang diperlukan untuk konversi gambar terakselerasi juga meningkat. Hal ini dapat menyebabkan konversi gagal karena timeout. Untuk memicu ulang konversi, edit dan simpan konfigurasi fungsi di Konsol Function Compute. Anda tidak perlu mengubah parameter apa pun.

Apakah model harus dikemas dalam gambar atau dipisahkan darinya?

Jika file model Anda berukuran besar, sering diperbarui, atau menyebabkan gambar melebihi batas ukuran platform, pisahkan model dari gambar. Jika Anda memisahkan model dari gambar, simpan model tersebut di sistem file NAS atau OSS. Untuk informasi lebih lanjut, lihat Praktik terbaik penyimpanan model di instans yang dipercepat GPU.

Bagaimana cara melakukan pemanasan model, dan apakah ada praktik terbaiknya?

Lakukan pemanasan model di metode /initialize. Instans hanya mulai menerima traffic produksi setelah metode /initialize selesai. Untuk informasi lebih lanjut, lihat dokumen berikut:

Apa yang harus saya lakukan jika gambar GPU gagal dimulai dan menampilkan "FunctionNotStarted: Function Instance health check failed on port xxx in 120 seconds"?

  • Penyebab: Aplikasi AI/GPU membutuhkan waktu terlalu lama untuk dimulai, sehingga menyebabkan pemeriksaan kesehatan gagal di platform Function Compute (FC). Alasan umum waktu startup yang lama adalah proses pemuatan model yang memakan waktu berlebihan, sehingga menyebabkan server web timeout.

  • Solusi:

    • Jangan memuat model secara dinamis dari jaringan publik selama startup aplikasi. Untuk pemuatan yang lebih cepat, letakkan model di dalam gambar atau di sistem file Penyimpanan File NAS.

    • Letakkan inisialisasi model di metode /initialize. Hal ini memungkinkan server web dimulai terlebih dahulu sebelum model dimuat.

      Catatan

      Untuk informasi lebih lanjut tentang siklus hidup instans, lihat Konfigurasi siklus hidup instans.

Fungsi saya memiliki latensi end-to-end yang tinggi dan fluktuatif. Bagaimana cara mengatasinya?

  1. Pertama, pastikan status akselerasi gambar adalah `Available` di konteks lingkungan.

  2. Konfirmasi tipe sistem file NAS. Jika fungsi Anda perlu membaca data dari sistem file NAS, misalnya untuk membaca model, gunakan sistem file NAS tujuan umum yang komputasi-teroptimalkan untuk performa yang lebih baik. Jangan gunakan sistem file yang dioptimalkan untuk penyimpanan. Untuk informasi lebih lanjut, lihat Sistem file NAS tujuan umum.

Apa yang harus saya lakukan jika driver NVIDIA tidak ditemukan?

Saat Anda menggunakan perintah docker run --gpus all untuk menentukan kontainer, lalu menggunakan docker commit untuk membangun gambar aplikasi, gambar yang dihasilkan berisi informasi driver NVIDIA lokal. Hal ini mencegah driver dipasang dengan benar setelah gambar dideploy ke Function Compute. Dalam kasus ini, sistem tidak dapat menemukan driver NVIDIA.

Untuk mengatasi masalah ini, gunakan Dockerfile untuk membangun gambar aplikasi. Untuk informasi lebih lanjut, lihat dockerfile.

Selain itu, jangan menambahkan komponen terkait driver ke dalam gambar atau membuat aplikasi Anda bergantung pada versi driver tertentu. Misalnya, jangan sertakan libcuda.so di dalam gambar. Pustaka dinamis ini menyediakan CUDA Driver API dan sangat terikat erat dengan versi kernel driver perangkat. Jika pustaka dinamis di dalam gambar tidak cocok dengan kernel driver host, aplikasi Anda dapat berperilaku tidak normal karena masalah kompatibilitas.

Saat instans fungsi dibuat, platform Function Compute menyuntikkan komponen user mode driver ke dalam kontainer. Komponen-komponen ini sesuai dengan versi driver yang disediakan oleh platform. Ini juga merupakan perilaku teknologi virtualisasi kontainer GPU, seperti NVIDIA Container Runtime. Perilaku ini mendelegasikan tugas spesifik driver kepada penyedia sumber daya platform untuk memaksimalkan kemampuan adaptasi lingkungan gambar kontainer GPU. Driver untuk instans Function Compute yang dipercepat GPU disediakan oleh NVIDIA. Versi driver dapat berubah karena iterasi fitur, peluncuran model kartu baru, perbaikan bug, atau masa berlaku siklus hidup driver.

Jika Anda sudah menggunakan teknologi virtualisasi kontainer GPU, seperti NVIDIA Container Runtime, hindari menggunakan perintah docker commit untuk membuat gambar. Gambar-gambar tersebut berisi komponen driver yang telah disuntikkan. Saat Anda menggunakan gambar semacam itu di platform Function Compute, ketidaksesuaian versi komponen dapat menyebabkan perilaku tidak terdefinisi, seperti pengecualian aplikasi.