Saat mengirimkan pekerjaan pelatihan di Deep Learning Containers (DLC) dari Platform for AI (PAI), sistem secara otomatis menyuntikkan beberapa variabel lingkungan umum yang dapat digunakan dalam kode. Topik ini menjelaskan variabel lingkungan yang disediakan di DLC.
Variabel lingkungan umum
Untuk informasi tentang variabel lingkungan yang digunakan untuk Layanan Komputasi AI Lingjun, lihat bagian "Konfigurasikan variabel jaringan berperforma tinggi" dalam topik RDMA: Jaringan Berperforma Tinggi untuk Pelatihan Terdistribusi.
Variabel lingkungan PyTorch
Dalam pekerjaan pelatihan PyTorch terdistribusi, node master dan worker memiliki peran yang berbeda. Anda perlu membangun koneksi antar node untuk memungkinkan komunikasi. DLC menyediakan variabel lingkungan untuk mengomunikasikan informasi penting, seperti alamat dan nomor port dari master node. Tabel berikut menjelaskan variabel lingkungan umum untuk pekerjaan pelatihan PyTorch di DLC.
Variabel lingkungan | Deskripsi |
MASTER_ADDR | Alamat layanan dari master node. Contoh: |
MASTER_PORT | Port dari master node. Contoh: 23456. |
WORLD_SIZE | Jumlah total node dalam pekerjaan pelatihan terdistribusi. Sebagai contoh, jika Anda mengirimkan tugas yang berisi satu master node dan satu worker node, parameter WORLD_SIZE diatur menjadi 2. |
RANK | Indeks dari node. Sebagai contoh, jika Anda mengirimkan pekerjaan yang berisi satu master node dan dua worker node, parameter RANK dari master node, worker node-0, dan worker node-1 diatur masing-masing menjadi 0, 1, dan 2. |
NPROC_PER_NODE | Jumlah GPU untuk setiap worker node. Sebagai contoh, jika spesifikasi GPU dari sebuah worker node berisi 8 GPU tipe GU7E, nilai parameter ini adalah 8. |
Variabel lingkungan TensorFlow
Pekerjaan pelatihan TensorFlow terdistribusi menggunakan variabel lingkungan TF_CONFIG untuk membangun topologi jaringan terdistribusi. Tabel berikut menjelaskan variabel lingkungan umum untuk pekerjaan pelatihan TensorFlow di DLC.
Variabel lingkungan | Deskripsi |
TF_CONFIG | Topologi jaringan terdistribusi dari pekerjaan pelatihan TensorFlow. Contoh: |