全部产品
Search
文档中心

Platform For AI:EPL untuk mempercepat pelatihan model pembelajaran mendalam terdistribusi

更新时间:Oct 17, 2025

Easy Parallel Library (EPL) adalah kerangka kerja efisien dan mudah digunakan untuk pelatihan model terdistribusi. EPL menggabungkan berbagai teknologi optimasi pelatihan dan menyediakan API operasi yang ramah pengguna, memungkinkan Anda menerapkan strategi paralelisme. Anda dapat menggunakan EPL untuk mengurangi biaya serta meningkatkan efisiensi pelatihan model terdistribusi. Topik ini menjelaskan cara menggunakan EPL untuk mempercepat pelatihan model TensorFlow terdistribusi di Deep Learning Containers (DLC).

Persiapan

Sebelum melanjutkan dengan langkah-langkah dalam topik ini, pastikan persyaratan berikut telah dipenuhi:

Langkah 1: Konfigurasi pembuatan kode

Anda dapat menggunakan EPL untuk menulis kode pelatihan terdistribusi TensorFlow. Untuk informasi lebih lanjut, lihat Panduan Cepat Mulai.

Anda juga dapat menggunakan contoh kode yang disediakan oleh EPL untuk memulai pelatihan model TensorFlow terdistribusi. Dalam contoh ini, set data pelatihan ResNet50 digunakan untuk membuat pembuatan kode. Anda dapat menggunakan pembuatan kode untuk mengirim pekerjaan pelatihan TensorFlow. Setiap kali pelatihan model dilakukan, versi terbaru secara otomatis dikloning. Untuk mengonfigurasi pembuatan kode, ikuti langkah-langkah berikut.

  1. Buka halaman pembuatan kode.

    1. Masuk ke Konsol PAI.

    2. Di panel navigasi sisi kiri, klik Workspaces. Di halaman Ruang Kerja, klik nama ruang kerja yang ingin Anda kelola.

    3. Di panel navigasi sisi kiri, pilih AI Computing Asset Management > Source Code Repositories untuk pergi ke halaman pembuatan kode.

  2. Di halaman Code Configuration, klik Create Code Build.

  3. Di halaman Create Code Configuration, konfigurasikan parameter dan klik Submit.

    Atur Git URL ke https://github.com/alibaba/EasyParallelLibrary.git dan Branch ke main. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Konfigurasi Kode.

Langkah 2: Mulai pekerjaan pelatihan

  1. Buka halaman Buat Pekerjaan.

    1. Masuk ke Konsol PAI, pilih wilayah di bilah navigasi atas, pilih ruang kerja di bagian kanan, dan kemudian klik Go To DLC.

    2. Di halaman Pelatihan Terdistribusi (DLC), klik Create Job.

  2. Di halaman Create Job, konfigurasikan parameter utama berikut. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Buat Pekerjaan Pelatihan. Kemudian, klik OK.

    • Di bagian Basic Information, sesuaikan nama pekerjaan.

    • Di bagian Environment Information, konfigurasikan parameter berikut.

      Parameter

      Nilai contoh

      Node Image

      Pilih Official Image > tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04.

      Startup Command

      apt update
      apt install libnccl2 libnccl-dev
      cd /root/code/EasyParallelLibrary/
      pip install .
      cd examples/resnet
      bash scripts/train_dp.sh

      Code Configuration

      Dari daftar drop-down Online Configuration, pilih pembuatan kode yang telah Anda konfigurasi di Langkah 1 dan atur Branch ke main.

    • Di bagian Resource Information, konfigurasikan parameter berikut.

      Parameter

      Nilai contoh

      Resource Source

      Pilih Public Resources.

      Framework

      Pilih TensorFlow.

      Job Resources

      Konfigurasikan parameter berikut untuk node pekerja:

      • Number Of Nodes: Atur parameter ini ke 2. Anda dapat mengubah nilai berdasarkan kebutuhan pekerjaan pelatihan.

      • Resource Specification: Pilih spesifikasi GPU ecs.gn6v-c8g1.2xlarge.

      Maximum Running Time

      Atur parameter ini ke 2. Unit: jam.

    • Konfigurasikan parameter Job Resource Configuration sebagai berikut:

      Parameter

      Nilai contoh

      Number Of Nodes

      Atur parameter ini ke 2. Anda dapat mengubah nilai berdasarkan kebutuhan pekerjaan pelatihan.

      Node Configuration

      Di tab GPU Instance, pilih ecs.gn6v-c8g1.2xlarge.

      Maximum Running Time

      2. Unit: jam.

  3. Di halaman Pekerjaan Pelatihan Terdistribusi, klik nama pekerjaan yang ingin Anda kelola dan pergi ke halaman detail pekerjaan. Lihat status berjalan pekerjaan. Untuk informasi lebih lanjut, lihat Lihat Detail Pelatihan.

Referensi