Dalam komputasi paralel untuk model dasar, performa komputasi dapat dioptimalkan dengan mengurangi volume lalu lintas komunikasi, menumpangtindihkan komputasi dengan komunikasi, serta meningkatkan efisiensi komunikasi. Topik ini menjelaskan cara mengonfigurasi jaringan berperforma tinggi.
Batasan
Topik ini hanya berlaku untuk pekerjaan pelatihan yang menggunakan Sumber daya komputasi cerdas Lingjun.
Konfigurasikan variabel jaringan berperforma tinggi
Sumber daya komputasi cerdas Lingjun di Platform for AI (PAI) menggunakan jaringan Remote Direct Memory Access (RDMA) dan mengadopsi pengaturan optimal untuk variabel lingkungan NVIDIA Collective Communications Library (NCCL). Kami merekomendasikan Anda menggunakan variabel default di PAI untuk mencapai performa optimal. Namun, Anda juga dapat mengonfigurasi variabel berdasarkan kerangka pelatihan, kerangka komunikasi, dan fitur model Anda.
Variabel default di PAI
Tabel berikut menjelaskan pengaturan variabel NCCL default di PAI berdasarkan spesifikasi Lingjun yang berbeda.
Spesifikasi Lingjun | Variabel lingkungan NCCL |
| |
Untuk informasi lebih lanjut, lihat bagian "Variabel Lingkungan NCCL" dari topik ini.
Variabel lingkungan NCCL
Tabel berikut menjelaskan variabel lingkungan NCCL utama. Untuk informasi tentang variabel lingkungan lainnya, lihat dokumentasi NCCL.
Variabel lingkungan NCCL utama | Deskripsi |
NCCL_IB_TC | Aturan klasifikasi lalu lintas yang sesuai dengan aturan pemetaan jaringan yang digunakan oleh Alibaba Cloud. Jika Anda tidak mengonfigurasi variabel ini atau menentukan nilai yang tidak valid, performa jaringan mungkin terpengaruh secara negatif. |
NCCL_IB_GID_INDEX | Indeks ID global yang optimal. Jika Anda tidak mengonfigurasi variabel ini atau menentukan nilai yang tidak valid, NCCL akan mengalami kesalahan. |
NCCL_SOCKET_IFNAME | Antarmuka jaringan yang digunakan NCCL untuk membangun koneksi. Nilai yang direkomendasikan untuk variabel ini bervariasi berdasarkan spesifikasi Lingjun. Jika Anda tidak mengonfigurasi variabel ini atau menentukan nilai yang tidak valid, NCCL mungkin gagal membangun koneksi. |
NCCL_DEBUG | Tingkat informasi debug NCCL. Kami merekomendasikan Anda mengatur variabel ini ke INFO untuk mendapatkan lebih banyak log terkait NCCL. Ini membantu dalam pemecahan masalah performa. |
NCCL_IB_HCA | Perangkat InfiniBand yang dapat digunakan untuk komunikasi RDMA. Jumlah dan aturan penamaan perangkat InfiniBand bervariasi berdasarkan node komputasi. Jika Anda tidak menentukan variabel ini atau menentukan nilai yang tidak valid, performa jaringan mungkin terpengaruh secara negatif. |
NCCL_IB_TIMEOUT | Durasi waktu habis untuk membangun koneksi RDMA. Anda dapat meningkatkan nilai variabel ini untuk meningkatkan toleransi kesalahan untuk pekerjaan pelatihan. Jika Anda tidak menentukan variabel ini atau menentukan nilai yang tidak valid, pekerjaan pelatihan mungkin terganggu. |
NCCL_IB_QPS_PER_CONNECTION | Jumlah pasangan antrian pada setiap koneksi. Anda dapat meningkatkan nilai variabel ini untuk secara efektif meningkatkan throughput jaringan. |
Konfigurasikan sebuah gambar
Anda dapat menggunakan gambar resmi yang disediakan oleh DLC untuk mengirimkan pekerjaan pelatihan yang menggunakan Sumber daya komputasi cerdas Lingjun. Selain itu, Anda juga dapat menggunakan gambar kustom untuk mengirimkan pekerjaan pelatihan.
Gambar resmi

Gambar kustom
Anda dapat membuat dan menggunakan gambar kustom. Perhatikan hal-hal berikut:
Persyaratan lingkungan
Compute Unified Device Architecture (CUDA) 11.2 atau yang lebih baru digunakan.
NCCL 2.12.10 atau yang lebih baru digunakan.
Python 3 digunakan.
Instal pustaka RDMA
Untuk menggunakan gambar kustom, Anda harus secara manual menginstal pustaka RDMA di file Docker dari gambar kustom tersebut. Contoh kode:
RUN apt-get update && \
apt-get install -y --allow-downgrades --allow-change-held-packages --no-install-recommends libnl-3-dev libnl-route-3-dev libnl-3-200 libnl-route-3-200 iproute2 udev dmidecode ethtool && \
apt-get clean && \
rm -rf /var/lib/apt/lists/*
RUN cd /tmp/ && \
wget http://pythonrun.oss-cn-zhangjiakou.aliyuncs.com/rdma/nic-libs-mellanox-rdma-5.2-2/nic-lib-rdma-core-installer-ubuntu.tar.gz && \
tar xzvf nic-lib-rdma-core-installer-ubuntu.tar.gz && \
cd nic-lib-rdma-core-installer-ubuntu && \
echo Y | /bin/bash install.sh && \
cd .. && \
rm -rf nic-lib-rdma-core-installer-ubuntu && \
rm -f nic-lib-rdma-core-installer-ubuntu.tar.gzReferensi
Untuk informasi tentang cara mengirimkan pekerjaan pelatihan yang menggunakan Sumber daya komputasi cerdas Lingjun, lihat Kirimkan Pekerjaan Pelatihan.