Topik ini menjelaskan cara menggunakan Deep Learning Containers (DLC) dari Platform for AI (PAI), Data Science Workshop (DSW), dan File Storage NAS (NAS) untuk melakukan pelatihan migrasi offline berbasis PyTorch.
Prasyarat
Sistem file NAS tujuan umum telah dibuat di wilayah tertentu. Untuk informasi lebih lanjut, lihat Buat Sistem File NAS Tujuan Umum di Konsol NAS.
Batasan
Operasi yang dijelaskan dalam topik ini hanya berlaku untuk kluster yang menggunakan sumber daya komputasi umum dan diterapkan di grup sumber daya publik.
Langkah 1: Buat dataset
Pergi ke halaman Dataset.
Masuk ke Konsol PAI.
Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.
Di panel navigasi sebelah kiri, pilih .
Di halaman Dataset, klik Create Dataset. Di halaman Create Dataset, atur parameter Storage Type menjadi General-purpose NAS. Untuk informasi lebih lanjut tentang cara membuat dataset dasar, lihat Buat Dataset Dasar.
Langkah 2: Buat instance DSW
Untuk membuat instance DSW, konfigurasikan parameter yang dijelaskan dalam tabel berikut. Untuk informasi tentang parameter lainnya, lihat Buat Instance DSW.

Parameter | Deskripsi | |
Environment Information | Dataset Mounting | Klik Custom Dataset, pilih dataset NAS yang Anda buat di Langkah 1, lalu atur parameter Mount Path menjadi |
Working Directory | Pilih | |
Network Information | VPC | Anda tidak perlu mengonfigurasi parameter ini. |
Langkah 3: Persiapkan data
Data yang digunakan dalam topik ini tersedia untuk akses publik. Anda dapat klik di sini untuk mengunduh data, lalu mengekstrak dan menggunakannya.
Pergi ke lingkungan pengembangan instance DSW.
Masuk ke Konsol PAI.
Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.
Di sudut kiri atas halaman, pilih wilayah tempat Anda ingin menggunakan PAI.
Di panel navigasi sebelah kiri, pilih .
Opsional: Di halaman Data Science Workshop (DSW), masukkan nama instance DSW atau kata kunci di kotak pencarian untuk mencari instance DSW.
Klik Open di kolom Actions dari instance.
Di lingkungan pengembangan DSW, klik tab Notebook di bilah navigasi atas.
Unduh data.
Klik ikon
di toolbar kiri atas untuk membuat folder. Dalam contoh ini, pytorch_transfer_learning digunakan sebagai nama folder.Di lingkungan pengembangan DSW, klik tab Terminal di bilah navigasi atas.
Di tab Terminal, jalankan perintah seperti yang ditunjukkan pada gambar berikut. Anda dapat menggunakan perintah
cduntuk pergi ke folder yang Anda buat, dan perintahwgetuntuk mengunduh dataset.cd /mnt/workspace/pytorch_transfer_learning/ wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gzhttps://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gzadalah URL untuk mengunduh file dataset.
Jalankan perintah
tar -xf ./data.tar.gzuntuk mengekstrak dataset.Klik tab Notebook. Pergi ke direktori pytorch_transfer_learning, klik kanan folder hymenoptera_data yang diekstrak, lalu klik Rename untuk mengubah nama file menjadi input.
Langkah 4: Persiapkan kode pelatihan dan folder penyimpanan model
Di tab Terminal dari instance DSW, jalankan perintah
wgetuntuk mengunduh kode pelatihan ke folderpytorch_transfer_learning.cd /mnt/workspace/pytorch_transfer_learning/ wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.pyhttps://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.pyadalah URL untuk mengunduh kode pelatihan.Di folder pytorch_transfer_learning, buat folder bernama output untuk menyimpan model yang telah dilatih.
mkdir outputLihat konten yang terdapat di folder pytorch_transfer_learning.
Folder tersebut berisi konten berikut:
input: folder yang menyimpan data pelatihan.
main.py: file kode pelatihan.
output: folder yang menyimpan model yang telah dilatih.

Langkah 5: Buat pekerjaan terjadwal
Pergi ke halaman Create Job.
Masuk ke Konsol PAI. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di halaman di sebelah kanan, pilih workspace yang diinginkan dan klik Enter Deep Learning Containers (DLC).
Di halaman Deep Learning Containers (DLC), klik Create Job.
Di halaman Create Job, konfigurasikan parameter. Tabel berikut menjelaskan parameter tersebut.
Bagian
Parameter
Deskripsi
Basic Information
Job Name
Tentukan nama pekerjaan.
Environment Information
Node Image
Pilih Alibaba Cloud Image lalu pilih gambar PyTorch dari daftar drop-down. Dalam contoh ini, gambar
pytorch-training:1.12-gpu-py39-cu113-ubuntu20.04digunakan.Datasets
Klik Custom Dataset dan pilih dataset NAS yang Anda buat di Langkah 1.
Startup Command
Atur parameter ini menjadi
python /mnt/data/pytorch_transfer_learning/main.py -i /mnt/data/pytorch_transfer_learning/input -o /mnt/data/pytorch_transfer_learning/output.Third-party Libraries
Klik Select from List lalu masukkan konten berikut di kotak teks:
numpy==1.16.4 absl-py==0.11.0Code Builds
Anda tidak perlu mengonfigurasi parameter ini.
Resource Information
Source
Pilih Public Resources.
Framework
Pilih PyTorch.
Job Resource
Pilih tipe instans dan tentukan jumlah instans. Sebagai contoh, pilih ecs.g6.xlarge di tab CPU pada halaman Resource Type, lalu atur parameter Nodes menjadi 1.
Klik OK.
Langkah 6: Lihat detail pekerjaan dan log
Di halaman Deep Learning Containers (DLC), klik name pekerjaan yang ingin Anda lihat.
Di tab Overview halaman detail pekerjaan, lihat Basic Information dan Resource Information dari pekerjaan.
Di bagian Instance di tab Overview halaman detail pekerjaan, temukan instans yang ingin Anda kelola dan klik Log di kolom Actions untuk melihat log.
Gambar berikut menunjukkan contoh log.
