Easy Parallel Library (EPL) adalah kerangka kerja efisien dan mudah digunakan untuk pelatihan model terdistribusi. EPL menggabungkan berbagai teknologi optimasi pelatihan dan menyediakan API operasi yang ramah pengguna, memungkinkan Anda menerapkan strategi paralelisme. Anda dapat menggunakan EPL untuk mengurangi biaya serta meningkatkan efisiensi pelatihan model terdistribusi. Topik ini menjelaskan cara menggunakan EPL untuk mempercepat pelatihan model TensorFlow terdistribusi di Deep Learning Containers (DLC).
Persiapan
Sebelum melanjutkan dengan langkah-langkah dalam topik ini, pastikan persyaratan berikut telah dipenuhi:
Anda telah memberikan otorisasi peran terkait layanan untuk DLC. Untuk informasi lebih lanjut, lihat Ketergantungan Layanan Cloud dan Otorisasi: DLC.
Gambar resmi atau salah satu gambar komunitas berikut telah diterapkan: NVIDIA TensorFlow 1.15 atau TensorFlow-GPU 1.15.
Jika Anda menggunakan gambar resmi (Gambar Resmi (gambar dioptimalkan yang disediakan oleh tim PAI)), Anda dapat menggunakan EPL langsung tanpa instalasi tambahan.
Jika Anda menggunakan gambar komunitas (Gambar Komunitas (gambar standar yang disediakan oleh komunitas)), Anda harus menginstal EPL sebelum dapat menggunakannya. Untuk panduan instalasi EPL, lihat Instal EPL.
CatatanJika Anda menggunakan platform DLC, kami menyarankan Anda memilih gambar komunitas:
tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04. Anda dapat menjalankan perintah untuk menginstal EPL di DLC.
Langkah 1: Konfigurasi pembuatan kode
Anda dapat menggunakan EPL untuk menulis kode pelatihan terdistribusi TensorFlow. Untuk informasi lebih lanjut, lihat Panduan Cepat Mulai.
Anda juga dapat menggunakan contoh kode yang disediakan oleh EPL untuk memulai pelatihan model TensorFlow terdistribusi. Dalam contoh ini, set data pelatihan ResNet50 digunakan untuk membuat pembuatan kode. Anda dapat menggunakan pembuatan kode untuk mengirim pekerjaan pelatihan TensorFlow. Setiap kali pelatihan model dilakukan, versi terbaru secara otomatis dikloning. Untuk mengonfigurasi pembuatan kode, ikuti langkah-langkah berikut.
Buka halaman pembuatan kode.
Masuk ke Konsol PAI.
Di panel navigasi sisi kiri, klik Workspaces. Di halaman Ruang Kerja, klik nama ruang kerja yang ingin Anda kelola.
Di panel navigasi sisi kiri, pilih untuk pergi ke halaman pembuatan kode.
Di halaman Code Configuration, klik Create Code Build.
Di halaman Create Code Configuration, konfigurasikan parameter dan klik Submit.
Atur Git URL ke
https://github.com/alibaba/EasyParallelLibrary.gitdan Branch ke main. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Konfigurasi Kode.
Langkah 2: Mulai pekerjaan pelatihan
Buka halaman Buat Pekerjaan.
Masuk ke Konsol PAI, pilih wilayah di bilah navigasi atas, pilih ruang kerja di bagian kanan, dan kemudian klik Go To DLC.
Di halaman Pelatihan Terdistribusi (DLC), klik Create Job.
Di halaman Create Job, konfigurasikan parameter utama berikut. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Buat Pekerjaan Pelatihan. Kemudian, klik OK.
Di bagian Basic Information, sesuaikan nama pekerjaan.
Di bagian Environment Information, konfigurasikan parameter berikut.
Parameter
Nilai contoh
Node Image
Pilih Official Image > tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04.
Startup Command
apt update apt install libnccl2 libnccl-dev cd /root/code/EasyParallelLibrary/ pip install . cd examples/resnet bash scripts/train_dp.shCode Configuration
Dari daftar drop-down Online Configuration, pilih pembuatan kode yang telah Anda konfigurasi di Langkah 1 dan atur Branch ke main.
Di bagian Resource Information, konfigurasikan parameter berikut.
Parameter
Nilai contoh
Resource Source
Pilih Public Resources.
Framework
Pilih TensorFlow.
Job Resources
Konfigurasikan parameter berikut untuk node pekerja:
Number Of Nodes: Atur parameter ini ke 2. Anda dapat mengubah nilai berdasarkan kebutuhan pekerjaan pelatihan.
Resource Specification: Pilih spesifikasi GPU ecs.gn6v-c8g1.2xlarge.
Maximum Running Time
Atur parameter ini ke 2. Unit: jam.
Konfigurasikan parameter Job Resource Configuration sebagai berikut:
Parameter
Nilai contoh
Number Of Nodes
Atur parameter ini ke 2. Anda dapat mengubah nilai berdasarkan kebutuhan pekerjaan pelatihan.
Node Configuration
Di tab GPU Instance, pilih ecs.gn6v-c8g1.2xlarge.
Maximum Running Time
2. Unit: jam.
Di halaman Pekerjaan Pelatihan Terdistribusi, klik nama pekerjaan yang ingin Anda kelola dan pergi ke halaman detail pekerjaan. Lihat status berjalan pekerjaan. Untuk informasi lebih lanjut, lihat Lihat Detail Pelatihan.
Referensi
Untuk informasi lebih lanjut tentang EPL, lihat EPL.
Untuk informasi lebih lanjut tentang DLC, lihat Pelatihan Terdistribusi (DLC).