全部产品
Search
文档中心

Elastic GPU Service:Sebarkan lingkungan NGC untuk pengembangan pembelajaran mendalam

更新时间:Jul 02, 2025

NVIDIA GPU Cloud (NGC) adalah ekosistem pembelajaran mendalam yang dikembangkan oleh NVIDIA. NGC memungkinkan Anda mengakses tumpukan perangkat lunak pembelajaran mendalam secara gratis dan menggunakannya untuk membangun lingkungan pengembangan untuk pembelajaran mendalam. Topik ini menggunakan kerangka kerja pembelajaran mendalam TensorFlow sebagai contoh untuk menjelaskan cara menyebarkan lingkungan NGC pada instans yang dipercepat GPU.

Informasi latar belakang

  • Situs NGC menyediakan gambar dari berbagai versi kerangka kerja pembelajaran mendalam utama, seperti Caffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), MXNet, TensorFlow, Theano, dan Torch. Anda dapat memilih gambar untuk menyebarkan lingkungan kontainer NGC sesuai dengan kebutuhan bisnis Anda. Dalam contoh ini, kerangka kerja pembelajaran mendalam TensorFlow digunakan.

  • Alibaba Cloud menyediakan gambar kontainer NGC yang dioptimalkan untuk GPU NVIDIA Pascal di Alibaba Cloud Marketplace. Saat membuat instans yang dipercepat GPU, Anda dapat memilih gambar kontainer NGC untuk dengan cepat menyebarkan lingkungan kontainer NGC dan langsung mengakses kerangka kerja pembelajaran mendalam yang dioptimalkan. Gambar kontainer NGC juga mendukung kerangka algoritma yang dioptimalkan serta pembaruan konstan.

Batasan

Anda dapat menyebarkan lingkungan NGC pada instans yang termasuk dalam salah satu keluarga instans berikut:

  • gn5i, gn6v, gn6i, gn6e, gn7i, gn7e, dan gn7s

  • ebmgn6i, ebmgn6v, ebmgn6e, ebmgn7i, dan ebmgn7e

Untuk informasi lebih lanjut, lihat keluarga instans komputasi dioptimalkan dengan akselerasi GPU.

Prasyarat

Catatan

Sebelum menyebarkan lingkungan NGC pada instans yang dipercepat GPU, pastikan akun NGC telah dibuat di situs NGC.

Sebelum menyebarkan lingkungan NGC, dapatkan URL gambar kontainer TensorFlow.

  1. Masuk ke situs NGC.

  2. Masukkan TensorFlow di kotak pencarian. Temukan kartu TensorFlow dan klik TensorFlow.

    Tensorflow.jpg

  3. Di halaman TensorFlow, klik tab Tags dan salin URL gambar kontainer TensorFlow yang diperlukan.

    Dalam contoh ini, URL gambar 22.05-tf1-py3 adalah nvcr.io/nvidia/tensorflow:22.05-tf1-py3. URL ini digunakan untuk mengunduh gambar TensorFlow pada instans yang dipercepat GPU.

    TensorFlow路径.jpg

    Penting

    Versi CUDA dalam gambar TensorFlow harus sesuai dengan versi driver instans yang dipercepat GPU. Jika tidak, lingkungan pengembangan TensorFlow gagal disebarkan. Untuk informasi lebih lanjut tentang hubungan antara versi gambar TensorFlow, versi CUDA, dan versi driver instans yang dipercepat GPU, lihat Catatan Rilis TensorFlow.

Prosedur

Topik ini menggunakan instans gn7i sebagai contoh untuk menunjukkan cara menyebarkan lingkungan NGC saat Anda membuat instans yang dipercepat GPU.

  1. Buat instans yang dipercepat GPU.

    Untuk informasi lebih lanjut, lihat Buat instans di tab Peluncuran Kustom. Bagian berikut menjelaskan cara mengonfigurasi parameter utama:

    Parameter

    Deskripsi

    Region

    Pilih wilayah tempat instans yang dipercepat GPU tersedia.

    Anda dapat pergi ke halaman Tipe Instans yang Tersedia untuk Setiap Wilayah untuk melihat instans yang dipercepat GPU yang tersedia di setiap wilayah.

    Instance

    Pilih jenis instans. Dalam contoh ini, gn7i digunakan.

    Image

    1. Di tab Marketplace Images, klik Select Image from Alibaba Cloud Marketplace (with Operating System).

    2. Di kotak dialog Alibaba Cloud Marketplace, masukkan NVIDIA GPU Cloud Virtual Machine Image di kotak pencarian dan klik Search.

    3. Temukan gambar yang ingin Anda gunakan dan klik Select.

    Public IP Address

    Pilih Assign Public IPv4 Address.

    Catatan

    Jika tidak ada alamat IP publik yang ditetapkan, Anda perlu mengaitkan alamat IP elastis (EIP) dengan instans setelah instans dibuat. Untuk informasi lebih lanjut, lihat Kaitkan satu atau lebih EIP dengan instans.

    Security Group

    Pilih grup keamanan. Anda harus mengaktifkan port TCP 22 untuk grup keamanan. Jika instans Anda diminta untuk mendukung HTTPS atau Deep Learning GPU Training System (DIGITS) 6, Anda harus mengaktifkan port TCP 443 untuk HTTPS atau port TCP 5000 untuk DIGITS 6.

  2. Gunakan salah satu metode yang dijelaskan dalam tabel berikut untuk terhubung ke instans.

    Metode

    Referensi

    Workbench

    Hubungkan ke instans Linux menggunakan kata sandi atau kunci

    VNC

    Hubungkan ke instans menggunakan VNC

  3. Jalankan perintah nvidia-smi untuk melihat informasi tentang GPU saat ini.

    Versi driver version adalah 515.48.07. Versi driver instans (515 atau lebih baru) sesuai dengan versi CUDA (11.7) dalam gambar TensorFlow 22.05-tf1-py3.

    nvidia-smi.png

  4. Jalankan perintah berikut untuk mengunduh gambar kontainer TensorFlow:

    docker pull nvcr.io/nvidia/tensorflow:22.05-tf1-py3
    Penting

    Mungkin memerlukan waktu lama untuk mengunduh gambar kontainer TensorFlow.

  5. Jalankan perintah berikut untuk melihat informasi tentang gambar kontainer TensorFlow yang diunduh:

    docker image ls

    容器镜像信息.jpg

  6. Jalankan perintah berikut untuk menyebarkan lingkungan pengembangan TensorFlow dengan menjalankan kontainer:

    docker run --gpus all --rm -it nvcr.io/nvidia/tensorflow:22.05-tf1-py3

    Dingtalk_20240819173529.jpg

  7. Jalankan perintah berikut secara berurutan untuk menjalankan tes sederhana untuk TensorFlow:

    python
    import tensorflow as tf
    hello = tf.constant('Hello, TensorFlow!')
    with tf.compat.v1.Session() as sess:
        result = sess.run(hello)
        print(result.decode())
    

    Jika TensorFlow memuat perangkat GPU seperti yang diharapkan, hasil Hello, TensorFlow! akan muncul. Gambar berikut menunjukkan contohnya.

    Dingtalk_20240821121930.jpg

  8. Simpan gambar TensorFlow yang dimodifikasi.

    1. Di halaman koneksi GPU, buka jendela baru untuk koneksi jarak jauh.

    2. Jalankan perintah berikut untuk menanyakan ID kontainer yang ditentukan oleh CONTAINER_ID:

      docker ps

      Dingtalk_20240821144414.jpg

    3. Jalankan perintah berikut untuk menyimpan gambar TensorFlow yang dimodifikasi:

      # Ganti CONTAINER_ID dengan ID kontainer yang ditemukan menggunakan perintah docker ps, seperti f76a5a4347d.
      docker commit   -m "commit docker" CONTAINER_ID  nvcr.io/nvidia/tensorflow:20.01-tf1-py3
      Penting

      Pastikan gambar TensorFlow yang dimodifikasi disimpan dengan benar. Jika tidak, modifikasi mungkin hilang saat Anda masuk ke instans lain kali.