NVIDIA GPU Cloud (NGC) adalah ekosistem pembelajaran mendalam yang dikembangkan oleh NVIDIA. NGC memungkinkan Anda mengakses tumpukan perangkat lunak pembelajaran mendalam secara gratis dan menggunakannya untuk membangun lingkungan pengembangan untuk pembelajaran mendalam. Topik ini menggunakan kerangka kerja pembelajaran mendalam TensorFlow sebagai contoh untuk menjelaskan cara menyebarkan lingkungan NGC pada instans yang dipercepat GPU.
Informasi latar belakang
Situs NGC menyediakan gambar dari berbagai versi kerangka kerja pembelajaran mendalam utama, seperti Caffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), MXNet, TensorFlow, Theano, dan Torch. Anda dapat memilih gambar untuk menyebarkan lingkungan kontainer NGC sesuai dengan kebutuhan bisnis Anda. Dalam contoh ini, kerangka kerja pembelajaran mendalam TensorFlow digunakan.
Alibaba Cloud menyediakan gambar kontainer NGC yang dioptimalkan untuk GPU NVIDIA Pascal di Alibaba Cloud Marketplace. Saat membuat instans yang dipercepat GPU, Anda dapat memilih gambar kontainer NGC untuk dengan cepat menyebarkan lingkungan kontainer NGC dan langsung mengakses kerangka kerja pembelajaran mendalam yang dioptimalkan. Gambar kontainer NGC juga mendukung kerangka algoritma yang dioptimalkan serta pembaruan konstan.
Batasan
Anda dapat menyebarkan lingkungan NGC pada instans yang termasuk dalam salah satu keluarga instans berikut:
gn5i, gn6v, gn6i, gn6e, gn7i, gn7e, dan gn7s
ebmgn6i, ebmgn6v, ebmgn6e, ebmgn7i, dan ebmgn7e
Untuk informasi lebih lanjut, lihat keluarga instans komputasi dioptimalkan dengan akselerasi GPU.
Prasyarat
Sebelum menyebarkan lingkungan NGC pada instans yang dipercepat GPU, pastikan akun NGC telah dibuat di situs NGC.
Sebelum menyebarkan lingkungan NGC, dapatkan URL gambar kontainer TensorFlow.
Masukkan TensorFlow di kotak pencarian. Temukan kartu TensorFlow dan klik TensorFlow.

Di halaman TensorFlow, klik tab Tags dan salin URL gambar kontainer TensorFlow yang diperlukan.
Dalam contoh ini, URL gambar
22.05-tf1-py3adalah nvcr.io/nvidia/tensorflow:22.05-tf1-py3. URL ini digunakan untuk mengunduh gambar TensorFlow pada instans yang dipercepat GPU.
PentingVersi CUDA dalam gambar TensorFlow harus sesuai dengan versi driver instans yang dipercepat GPU. Jika tidak, lingkungan pengembangan TensorFlow gagal disebarkan. Untuk informasi lebih lanjut tentang hubungan antara versi gambar TensorFlow, versi CUDA, dan versi driver instans yang dipercepat GPU, lihat Catatan Rilis TensorFlow.
Prosedur
Topik ini menggunakan instans gn7i sebagai contoh untuk menunjukkan cara menyebarkan lingkungan NGC saat Anda membuat instans yang dipercepat GPU.
Buat instans yang dipercepat GPU.
Untuk informasi lebih lanjut, lihat Buat instans di tab Peluncuran Kustom. Bagian berikut menjelaskan cara mengonfigurasi parameter utama:
Parameter
Deskripsi
Region
Pilih wilayah tempat instans yang dipercepat GPU tersedia.
Anda dapat pergi ke halaman Tipe Instans yang Tersedia untuk Setiap Wilayah untuk melihat instans yang dipercepat GPU yang tersedia di setiap wilayah.
Instance
Pilih jenis instans. Dalam contoh ini, gn7i digunakan.
Image
Di tab Marketplace Images, klik Select Image from Alibaba Cloud Marketplace (with Operating System).
Di kotak dialog Alibaba Cloud Marketplace, masukkan NVIDIA GPU Cloud Virtual Machine Image di kotak pencarian dan klik Search.
Temukan gambar yang ingin Anda gunakan dan klik Select.
Public IP Address
Pilih Assign Public IPv4 Address.
CatatanJika tidak ada alamat IP publik yang ditetapkan, Anda perlu mengaitkan alamat IP elastis (EIP) dengan instans setelah instans dibuat. Untuk informasi lebih lanjut, lihat Kaitkan satu atau lebih EIP dengan instans.
Security Group
Pilih grup keamanan. Anda harus mengaktifkan port TCP 22 untuk grup keamanan. Jika instans Anda diminta untuk mendukung HTTPS atau Deep Learning GPU Training System (DIGITS) 6, Anda harus mengaktifkan port TCP 443 untuk HTTPS atau port TCP 5000 untuk DIGITS 6.
Gunakan salah satu metode yang dijelaskan dalam tabel berikut untuk terhubung ke instans.
Metode
Referensi
Workbench
Hubungkan ke instans Linux menggunakan kata sandi atau kunci
VNC
Jalankan perintah
nvidia-smiuntuk melihat informasi tentang GPU saat ini.Versi driver version adalah 515.48.07. Versi driver instans (515 atau lebih baru) sesuai dengan versi CUDA (11.7) dalam gambar TensorFlow
22.05-tf1-py3.
Jalankan perintah berikut untuk mengunduh gambar kontainer TensorFlow:
docker pull nvcr.io/nvidia/tensorflow:22.05-tf1-py3PentingMungkin memerlukan waktu lama untuk mengunduh gambar kontainer TensorFlow.
Jalankan perintah berikut untuk melihat informasi tentang gambar kontainer TensorFlow yang diunduh:
docker image ls
Jalankan perintah berikut untuk menyebarkan lingkungan pengembangan TensorFlow dengan menjalankan kontainer:
docker run --gpus all --rm -it nvcr.io/nvidia/tensorflow:22.05-tf1-py3
Jalankan perintah berikut secara berurutan untuk menjalankan tes sederhana untuk TensorFlow:
pythonimport tensorflow as tf hello = tf.constant('Hello, TensorFlow!') with tf.compat.v1.Session() as sess: result = sess.run(hello) print(result.decode())Jika TensorFlow memuat perangkat GPU seperti yang diharapkan, hasil
Hello, TensorFlow!akan muncul. Gambar berikut menunjukkan contohnya.
Simpan gambar TensorFlow yang dimodifikasi.
Di halaman koneksi GPU, buka jendela baru untuk koneksi jarak jauh.
Jalankan perintah berikut untuk menanyakan ID kontainer yang ditentukan oleh
CONTAINER_ID:docker ps
Jalankan perintah berikut untuk menyimpan gambar TensorFlow yang dimodifikasi:
# Ganti CONTAINER_ID dengan ID kontainer yang ditemukan menggunakan perintah docker ps, seperti f76a5a4347d. docker commit -m "commit docker" CONTAINER_ID nvcr.io/nvidia/tensorflow:20.01-tf1-py3PentingPastikan gambar TensorFlow yang dimodifikasi disimpan dengan benar. Jika tidak, modifikasi mungkin hilang saat Anda masuk ke instans lain kali.