全部产品
Search
文档中心

Function Compute:FAQ tentang instans yang dipercepat GPU

更新时间:Jan 29, 2026

Topik ini menjawab beberapa pertanyaan umum terkait instans yang dipercepat GPU.

Apa versi driver dan CUDA dari instans yang dipercepat GPU di Function Compute?

Berikut adalah daftar versi komponen utama dari instans yang dipercepat GPU:

  • Versi Driver: Driver mencakup mode kernel (KMD) seperti nvidia.ko dan mode pengguna CUDA (UMD) seperti libcuda.so. NVIDIA menyediakan driver yang digunakan oleh instans yang dipercepat GPU di Function Compute. Versi driver dapat berubah karena iterasi fitur, rilis GPU baru, perbaikan bug, dan siklus hidup driver yang kedaluwarsa. Kami merekomendasikan agar Anda tidak menambahkan komponen terkait driver ke gambar Anda. Untuk informasi lebih lanjut, lihat Apa yang harus saya lakukan jika sistem gagal menemukan Driver NVIDIA?.

  • Versi Toolkit CUDA: Toolkit CUDA mencakup berbagai komponen, seperti Runtime CUDA, cuDNN, dan cuFFT. Versi Toolkit CUDA ditentukan oleh gambar kontainer yang Anda gunakan.

Driver GPU dan Toolkit CUDA, keduanya dirilis oleh NVIDIA, saling terkait satu sama lain. Untuk informasi lebih lanjut, lihat Catatan Rilis NVIDIA CUDA Toolkit.

Versi driver saat ini dari instans yang dipercepat GPU di Function Compute adalah 570.133.20, dan versi CUDA UMD yang sesuai adalah 12.8. Untuk kompatibilitas optimal, kami merekomendasikan agar Anda menggunakan Toolkit CUDA 11.8 atau yang lebih baru, tetapi tidak melebihi versi CUDA UMD.

Apa yang harus saya lakukan jika "CUFFT_INTERNAL_ERROR" dilaporkan selama eksekusi fungsi?

Pustaka cuFFT di CUDA 11.7 memiliki masalah kompatibilitas maju. Jika Anda mengalami kesalahan ini dengan model GPU yang lebih baru, kami merekomendasikan agar Anda meningkatkan setidaknya ke CUDA 11.8. Untuk informasi lebih lanjut tentang model GPU, lihat Spesifikasi Instans.

Sebagai contoh, ambil PyTorch. Setelah peningkatan, Anda dapat menggunakan potongan kode berikut untuk verifikasi. Jika tidak ada kesalahan yang dilaporkan, peningkatan berhasil.

import torch
out = torch.fft.rfft(torch.randn(1000).cuda())

Apa yang harus saya lakukan jika kesalahan CUDA GPG dilaporkan saat saya membangun sebuah gambar?

Kesalahan GPG berikut dilaporkan selama proses pembuatan gambar:

W: Kesalahan GPG: https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64  InRelease: Tanda tangan berikut tidak dapat diverifikasi karena kunci publik tidak tersedia: NO_PUBKEY A4B469963BF863CC
E: Repositori 'https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease' tidak ditandatangani.

Dalam kasus ini, Anda dapat menambahkan skrip berikut ke baris perintah RUN rm file Dockerfile dan membangun ulang gambar Anda.

RUN apt-key adv --keyserver keyserver.ubuntu.com --recv-keys A4B469963BF863CC

Mengapa tipe instans GPU saya adalah g1?

Tipe instans g1 setara dengan tipe instans fc.gpu.tesla.1. Untuk informasi lebih lanjut, lihat Spesifikasi Instans.

Mengapa instans GPU yang disediakan gagal dialokasikan?

Alokasi instans yang disediakan mungkin gagal karena alasan berikut:

  • Startup instans yang disediakan habis waktu.

    • Kode kesalahan: FunctionNotStarted.

    • Pesan kesalahan: Pemeriksaan kesehatan instance fungsi gagal pada port XXX dalam 120 detik.

    • Solusi: Periksa logika startup aplikasi untuk melihat apakah mencakup logika untuk mengunduh model dari Internet dan memuat model besar (lebih dari 10 GB). Kami merekomendasikan agar Anda memulai server web sebelum menjalankan logika pemuatan model.

  • Jumlah maksimum instans untuk level fungsi atau wilayah telah tercapai.

    • Kode kesalahan: ResourceThrottled.

    • Pesan kesalahan: Sumber daya cadangan melebihi batas.

    • Solusi: Secara default, akun Alibaba Cloud dibatasi hingga 30 GPU fisik yang dialokasikan per wilayah. Anda dapat melihat kuota aktual di Konsol Pusat Kuota. Jika Anda memerlukan lebih banyak GPU fisik, Anda dapat mengajukan penyesuaian kuota di Konsol Pusat Kuota.

Berapa batasan ukuran untuk gambar GPU?

Batas ukuran gambar hanya berlaku untuk gambar yang dikompresi. Anda dapat memeriksa ukuran gambar yang dikompresi di Konsol Container Registry. Anda juga dapat menjalankan perintah docker images untuk menanyakan ukuran gambar sebelum dikompresi.

Dalam kebanyakan kasus, gambar yang belum dikompresi lebih kecil dari 20 GB dapat diterapkan ke Function Compute dan akan berfungsi seperti yang diharapkan.

Apa yang harus saya lakukan jika gambar GPU gagal dikonversi menjadi gambar yang dipercepat?

Waktu yang diperlukan untuk mengonversi gambar meningkat seiring dengan bertambahnya ukuran gambar Anda. Ini dapat menyebabkan kegagalan konversi. Anda dapat memicu ulang konversi gambar GPU dengan mengedit dan menyimpan ulang konfigurasi fungsi di Function Compute console. Saat mengedit, Anda tidak perlu benar-benar memodifikasi parameter jika ingin mempertahankan pengaturan yang ada.

Haruskah model diintegrasikan ke dalam atau dipisahkan dari gambar?

Jika file model Anda besar, sering mengalami iterasi, atau akan melebihi batas ukuran gambar saat diterbitkan bersama dengan gambar, kami merekomendasikan agar Anda memisahkan model dari gambar. Dalam kasus seperti itu, Anda dapat menyimpan model di sistem file NAS Penyimpanan File (NAS) atau sistem file Layanan Penyimpanan Objek (OSS).

Bagaimana cara melakukan pemanasan model?

Kami merekomendasikan agar Anda memanaskan model menggunakan metode /initialize. Lalu lintas produksi hanya diarahkan ke model setelah pemanasan berdasarkan metode /initialize selesai. Anda dapat merujuk ke topik berikut untuk mempelajari lebih lanjut tentang pemanasan model:

Apa yang harus saya lakukan jika kesalahan [FunctionNotStarted] Pemeriksaan kesehatan Instance Fungsi gagal pada port xxx dalam 120 detik dilaporkan saat saya memulai gambar GPU?

  • Penyebab: Aplikasi AI/GPU membutuhkan waktu terlalu lama untuk memulai. Akibatnya, pemeriksaan kesehatan Function Compute gagal. Dalam kebanyakan kasus, memulai aplikasi AI/GPU memakan waktu karena waktu pemuatan model yang panjang, yang dapat menyebabkan startup server web habis waktu.

  • Solusi:

    • Hindari memuat model secara dinamis melalui Internet selama startup aplikasi. Kami merekomendasikan agar Anda menempatkan model di gambar atau sistem file NAS dan memuatnya dari jalur terdekat.

    • Tempatkan inisialisasi model di metode /initialize dan prioritaskan menyelesaikan startup aplikasi. Dengan kata lain, muat model setelah server web dimulai.

      Catatan

      Untuk informasi lebih lanjut tentang siklus hidup instance fungsi, lihat Siklus hidup instance fungsi.

Apa yang harus saya lakukan jika latensi ujung-ke-ujung fungsi saya besar dan berfluktuasi besar?

  1. Pastikan bahwa status akselerasi gambar tersedia di informasi lingkungan.

  2. Periksa jenis sistem file NAS. Jika fungsi Anda perlu membaca data, seperti model, dari sistem file NAS, kami merekomendasikan agar Anda menggunakan Sistem file NAS performa standar daripada yang Kapasitas untuk memastikan kinerja optimal. Untuk informasi lebih lanjut, lihat Sistem file NAS tujuan umum.

Apa yang harus saya lakukan jika sistem gagal menemukan Driver NVIDIA?

Masalah ini muncul ketika Anda menggunakan perintah docker run --gpus all untuk menentukan wadah dan kemudian membangun gambar aplikasi menggunakan metode docker commit. Gambar yang dibangun berisi informasi driver NVIDIA lokal, yang mencegah driver dipasang dengan benar setelah gambar diterapkan ke Function Compute. Akibatnya, sistem tidak dapat menemukan driver NVIDIA.

Untuk menyelesaikan masalah ini, kami merekomendasikan agar Anda menggunakan Dockerfile untuk membangun gambar aplikasi. Untuk informasi lebih lanjut, lihat Dockerfile.

Selain itu, jangan sertakan komponen terkait driver dalam gambar Anda, serta hindari membuat aplikasi Anda bergantung pada versi driver tertentu. Sebagai contoh, jangan masukkan libcuda.so, yang menyediakan API Driver CUDA, ke dalam gambar Anda karena pustaka dinamis ini sangat terkait dengan versi driver perangkat. Memasukkan pustaka seperti itu dapat menyebabkan masalah kompatibilitas dan perilaku aplikasi yang tidak terduga jika terjadi ketidakcocokan versi dengan sistem yang mendasarinya.

Saat membuat instance fungsi, Function Compute secara proaktif menyuntikkan komponen driver mode pengguna ke dalam wadah. Komponen-komponen ini selaras dengan versi driver yang disediakan oleh Function Compute. Pendekatan ini sejalan dengan teknologi virtualisasi wadah GPU seperti NVIDIA Container Runtime, di mana tugas terkait driver didelegasikan kepada penyedia infrastruktur untuk memaksimalkan kompatibilitas gambar wadah GPU di berbagai lingkungan. Driver yang digunakan untuk instance GPU Function Compute disediakan oleh NVIDIA. Seiring dengan iterasi fitur yang sedang berlangsung, termasuk model GPU baru, perbaikan bug, dan perubahan siklus hidup driver, versi driver yang digunakan oleh instance GPU dapat berubah di masa mendatang.

Jika Anda sudah menggunakan NVIDIA Container Runtime atau teknologi virtualisasi wadah GPU lainnya, hindari membuat gambar dengan perintah docker commit. Gambar yang dibuat dengan cara ini mungkin berisi komponen driver yang disuntikkan. Saat menjalankan gambar ini di Function Compute, ketidakcocokan antara versi komponen dan platform dapat menghasilkan perilaku yang tidak terdefinisi, seperti kesalahan aplikasi.

Apa yang harus saya lakukan jika instans yang dipercepat GPU gagal disediakan selama pemanggilan sesuai permintaan, dan kesalahan "ResourceExhausted" atau "ResourceThrottled" dilaporkan?

Sumber daya GPU relatif langka, sehingga pemanggilan sesuai permintaan dapat terpengaruh oleh fluktuasi di kolam sumber daya, yang dapat mencegah instans disediakan tepat waktu. Untuk ketersediaan sumber daya yang lebih dapat diprediksi, kami merekomendasikan agar Anda mengonfigurasi aturan penskalaan otomatis untuk fungsi Anda untuk memesan sumber daya GPU sebelumnya. Untuk informasi lebih lanjut, lihat Konfigurasikan aturan penskalaan otomatis. Untuk detail tentang penagihan instans yang disediakan, lihat Ikhtisar penagihan.