全部产品
Search
文档中心

Platform For AI:Variabel lingkungan umum

更新时间:Jul 02, 2025

Saat mengirimkan pekerjaan pelatihan di Deep Learning Containers (DLC) dari Platform for AI (PAI), sistem secara otomatis menyuntikkan beberapa variabel lingkungan umum yang dapat digunakan dalam kode. Topik ini menjelaskan variabel lingkungan yang disediakan di DLC.

Variabel lingkungan umum

Untuk informasi tentang variabel lingkungan yang digunakan untuk Layanan Komputasi AI Lingjun, lihat bagian "Konfigurasikan variabel jaringan berperforma tinggi" dalam topik RDMA: Jaringan Berperforma Tinggi untuk Pelatihan Terdistribusi.

Variabel lingkungan PyTorch

Dalam pekerjaan pelatihan PyTorch terdistribusi, node master dan worker memiliki peran yang berbeda. Anda perlu membangun koneksi antar node untuk memungkinkan komunikasi. DLC menyediakan variabel lingkungan untuk mengomunikasikan informasi penting, seperti alamat dan nomor port dari master node. Tabel berikut menjelaskan variabel lingkungan umum untuk pekerjaan pelatihan PyTorch di DLC.

Variabel lingkungan

Deskripsi

MASTER_ADDR

Alamat layanan dari master node. Contoh: dlc18isgeayd****-master-0.

MASTER_PORT

Port dari master node. Contoh: 23456.

WORLD_SIZE

Jumlah total node dalam pekerjaan pelatihan terdistribusi. Sebagai contoh, jika Anda mengirimkan tugas yang berisi satu master node dan satu worker node, parameter WORLD_SIZE diatur menjadi 2.

RANK

Indeks dari node. Sebagai contoh, jika Anda mengirimkan pekerjaan yang berisi satu master node dan dua worker node, parameter RANK dari master node, worker node-0, dan worker node-1 diatur masing-masing menjadi 0, 1, dan 2.

NPROC_PER_NODE

Jumlah GPU untuk setiap worker node. Sebagai contoh, jika spesifikasi GPU dari sebuah worker node berisi 8 GPU tipe GU7E, nilai parameter ini adalah 8.

Variabel lingkungan TensorFlow

Pekerjaan pelatihan TensorFlow terdistribusi menggunakan variabel lingkungan TF_CONFIG untuk membangun topologi jaringan terdistribusi. Tabel berikut menjelaskan variabel lingkungan umum untuk pekerjaan pelatihan TensorFlow di DLC.

Variabel lingkungan

Deskripsi

TF_CONFIG

Topologi jaringan terdistribusi dari pekerjaan pelatihan TensorFlow. Contoh:

{
  "cluster": {
    "worker": [
      "dlc1y3madghd****-worker-0.t1612285282502324.svc:2222",
      "dlc1y3madghd****-worker-1.t1612285282502324.svc:2222"
    ]
  },
  "task": {
    "type": "worker",
    "index": 0
  },
  "environment": "cloud"
}