全部产品
Search
文档中心

Platform For AI:Gunakan NAS untuk mengirimkan pekerjaan pelatihan migrasi PyTorch mandiri

更新时间:Jul 02, 2025

Topik ini menjelaskan cara menggunakan Deep Learning Containers (DLC) dari Platform for AI (PAI), Data Science Workshop (DSW), dan File Storage NAS (NAS) untuk melakukan pelatihan migrasi offline berbasis PyTorch.

Prasyarat

Sistem file NAS tujuan umum telah dibuat di wilayah tertentu. Untuk informasi lebih lanjut, lihat Buat Sistem File NAS Tujuan Umum di Konsol NAS.

Batasan

Operasi yang dijelaskan dalam topik ini hanya berlaku untuk kluster yang menggunakan sumber daya komputasi umum dan diterapkan di grup sumber daya publik.

Langkah 1: Buat dataset

  1. Pergi ke halaman Dataset.

    1. Masuk ke Konsol PAI.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.

    3. Di panel navigasi sebelah kiri, pilih AI Asset Management > Datasets.

  2. Di halaman Dataset, klik Create Dataset. Di halaman Create Dataset, atur parameter Storage Type menjadi General-purpose NAS. Untuk informasi lebih lanjut tentang cara membuat dataset dasar, lihat Buat Dataset Dasar.

Langkah 2: Buat instance DSW

Untuk membuat instance DSW, konfigurasikan parameter yang dijelaskan dalam tabel berikut. Untuk informasi tentang parameter lainnya, lihat Buat Instance DSW.

image

Parameter

Deskripsi

Environment Information

Dataset Mounting

Klik Custom Dataset, pilih dataset NAS yang Anda buat di Langkah 1, lalu atur parameter Mount Path menjadi /mnt/data/.

Working Directory

Pilih Nama Dataset-/mnt/data/.

Network Information

VPC

Anda tidak perlu mengonfigurasi parameter ini.

Langkah 3: Persiapkan data

Data yang digunakan dalam topik ini tersedia untuk akses publik. Anda dapat klik di sini untuk mengunduh data, lalu mengekstrak dan menggunakannya.

  1. Pergi ke lingkungan pengembangan instance DSW.

    1. Masuk ke Konsol PAI.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.

    3. Di sudut kiri atas halaman, pilih wilayah tempat Anda ingin menggunakan PAI.

    4. Di panel navigasi sebelah kiri, pilih Model Training > Data Science Workshop (DSW).

    5. Opsional: Di halaman Data Science Workshop (DSW), masukkan nama instance DSW atau kata kunci di kotak pencarian untuk mencari instance DSW.

    6. Klik Open di kolom Actions dari instance.

  2. Di lingkungan pengembangan DSW, klik tab Notebook di bilah navigasi atas.

  3. Unduh data.

    1. Klik ikon 创建文件夹 di toolbar kiri atas untuk membuat folder. Dalam contoh ini, pytorch_transfer_learning digunakan sebagai nama folder.

    2. Di lingkungan pengembangan DSW, klik tab Terminal di bilah navigasi atas.

    3. Di tab Terminal, jalankan perintah seperti yang ditunjukkan pada gambar berikut. Anda dapat menggunakan perintah cd untuk pergi ke folder yang Anda buat, dan perintah wget untuk mengunduh dataset.

      cd /mnt/workspace/pytorch_transfer_learning/
      wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gz

      https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gz adalah URL untuk mengunduh file dataset.

      image

    4. Jalankan perintah tar -xf ./data.tar.gz untuk mengekstrak dataset.

    5. Klik tab Notebook. Pergi ke direktori pytorch_transfer_learning, klik kanan folder hymenoptera_data yang diekstrak, lalu klik Rename untuk mengubah nama file menjadi input.

Langkah 4: Persiapkan kode pelatihan dan folder penyimpanan model

  1. Di tab Terminal dari instance DSW, jalankan perintah wget untuk mengunduh kode pelatihan ke folder pytorch_transfer_learning.

    cd /mnt/workspace/pytorch_transfer_learning/
    wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.py

    https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.py adalah URL untuk mengunduh kode pelatihan.

  2. Di folder pytorch_transfer_learning, buat folder bernama output untuk menyimpan model yang telah dilatih.

    mkdir output
  3. Lihat konten yang terdapat di folder pytorch_transfer_learning.

    Folder tersebut berisi konten berikut:

    • input: folder yang menyimpan data pelatihan.

    • main.py: file kode pelatihan.

    • output: folder yang menyimpan model yang telah dilatih.

    最终的文件夹内容

Langkah 5: Buat pekerjaan terjadwal

  1. Pergi ke halaman Create Job.

    1. Masuk ke Konsol PAI. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di halaman di sebelah kanan, pilih workspace yang diinginkan dan klik Enter Deep Learning Containers (DLC).

    2. Di halaman Deep Learning Containers (DLC), klik Create Job.

  2. Di halaman Create Job, konfigurasikan parameter. Tabel berikut menjelaskan parameter tersebut.

    Bagian

    Parameter

    Deskripsi

    Basic Information

    Job Name

    Tentukan nama pekerjaan.

    Environment Information

    Node Image

    Pilih Alibaba Cloud Image lalu pilih gambar PyTorch dari daftar drop-down. Dalam contoh ini, gambar pytorch-training:1.12-gpu-py39-cu113-ubuntu20.04 digunakan.

    Datasets

    Klik Custom Dataset dan pilih dataset NAS yang Anda buat di Langkah 1.

    Startup Command

    Atur parameter ini menjadi python /mnt/data/pytorch_transfer_learning/main.py -i /mnt/data/pytorch_transfer_learning/input -o /mnt/data/pytorch_transfer_learning/output.

    Third-party Libraries

    Klik Select from List lalu masukkan konten berikut di kotak teks:

    numpy==1.16.4
    absl-py==0.11.0

    Code Builds

    Anda tidak perlu mengonfigurasi parameter ini.

    Resource Information

    Source

    Pilih Public Resources.

    Framework

    Pilih PyTorch.

    Job Resource

    Pilih tipe instans dan tentukan jumlah instans. Sebagai contoh, pilih ecs.g6.xlarge di tab CPU pada halaman Resource Type, lalu atur parameter Nodes menjadi 1.

  3. Klik OK.

Langkah 6: Lihat detail pekerjaan dan log

  1. Di halaman Deep Learning Containers (DLC), klik name pekerjaan yang ingin Anda lihat.

  2. Di tab Overview halaman detail pekerjaan, lihat Basic Information dan Resource Information dari pekerjaan.

  3. Di bagian Instance di tab Overview halaman detail pekerjaan, temukan instans yang ingin Anda kelola dan klik Log di kolom Actions untuk melihat log.

    Gambar berikut menunjukkan contoh log. image.png