Secara default, instans DSW dalam kelompok sumber daya publik dan khusus memiliki penyimpanan data yang terbatas, yang akan dihapus setelah periode tertentu. Untuk memperluas penyimpanan instans Anda, menyimpan data secara permanen, atau berbagi data, Anda dapat memasang Dataset atau jalur penyimpanan langsung ke instans.
Untuk instans DSW dalam kelompok sumber daya publik, data disimpan pada Disk Cloud gratis dengan ruang terbatas (100 GiB). Setelah Anda menghapus instans, atau jika instans dihentikan lebih dari 15 hari, sistem akan membersihkan data pada Disk Cloud.
Untuk instans DSW dalam kelompok sumber daya khusus, data disimpan pada disk sistem instans. Setelah instans dihentikan atau dihapus, sistem akan membersihkan penyimpanan sementara ini.
Perbedaan antara memasang dataset dan memasang jalur penyimpanan secara langsung
Jika Anda memerlukan penyimpanan jangka panjang dan kolaborasi tim, pilih untuk memasang Dataset. Jika Anda hanya membutuhkan penyimpanan untuk tugas sementara atau ingin memperluas kapasitas penyimpanan dengan cepat, pasang jalur penyimpanan langsung.
Fitur | Memasang dataset | Memasang jalur penyimpanan |
Produk cloud yang didukung | Object Storage Service (OSS), File Storage NAS, Cloud Parallel File Storage (CPFS) | |
Manajemen versi | Mendukung manajemen versi dan akselerasi data | Tidak mendukung manajemen versi |
Berbagi data | Mendukung berbagi lintas beberapa instans | Hanya tersedia untuk instans saat ini |
Kompleksitas operasional | Memerlukan pembuatan dan konfigurasi dataset | Sederhana; hanya memerlukan penyediaan jalur. |
Skenario | Penyimpanan jangka panjang, kolaborasi tim, dan persyaratan keamanan tinggi | Tugas sementara, perluasan penyimpanan cepat |
Perbedaan antara pemasangan saat startup dan pemasangan dinamis
Ada dua cara untuk memasang penyimpanan: pemasangan saat startup dan pemasangan dinamis.
Pemasangan saat startup: Konfigurasikan opsi ini ketika Anda membuat instans atau mengubah konfigurasinya. Instans harus di-restart untuk menerapkan perubahan.
Pemasangan dinamis: Anda memasang penyimpanan menggunakan kit pengembangan perangkat lunak (SDK) PAI dalam instans yang sedang berjalan. Metode ini tidak memerlukan restart instans.
Batasan
Jalur unik: Jalur pemasangan untuk setiap Dataset harus unik.
Batasan penulisan: Hindari operasi penulisan yang sering di direktori pemasangan OSS. Hal ini dapat menyebabkan penurunan performa atau kegagalan operasi.
Batasan Git: Operasi Git tidak didukung di direktori pemasangan OSS. Jalankan perintah Git di direktori lokal atau jalur lain yang tidak dipasang.
Batasan pemasangan dinamis
Batasan read-only: Pemasangan dinamis bersifat read-only. Cocok untuk skenario yang memerlukan pemasangan cepat atau akses read-only sementara.
Batasan jenis penyimpanan: Pemasangan dinamis hanya mendukung OSS dan NAS.
Batasan sumber daya: Pemasangan dinamis tidak mendukung Sumber daya komputasi cerdas Lingjun.
Pasang saat startup
Untuk memasang penyimpanan saat startup, konfigurasikan parameter Mount Dataset atau Mount Storage Path pada halaman konfigurasi instans. Anda harus me-restart instans untuk menerapkan konfigurasi.
Memasang dataset
Buat dataset
Masuk ke Konsol PAI. Buka halaman AI Asset Management > Datasets dan buat dataset kustom atau publik. Untuk informasi lebih lanjut, lihat Membuat dan mengelola dataset.
Pasang dataset
Pada halaman konfigurasi yang muncul saat Anda membuat instans DSW baru, temukan bagian Mount Dataset. Untuk instans yang sudah ada, klik Change Configuration untuk membuka halaman. Klik Custom Dataset, pilih dataset yang telah Anda buat, lalu masukkan Mount Path.
Catatan tentang pemasangan dataset kustom:
Dataset CPFS: Saat Anda mengonfigurasi Dataset CPFS, Virtual Private Cloud (VPC) dari instans DSW harus sama dengan VPC dari sistem file CPFS. Jika tidak, pembuatan instans akan gagal.
Dataset NAS: Saat Anda mengonfigurasi Dataset NAS, atur jaringan dan pilih Grup Keamanan.
Menggunakan kelompok sumber daya khusus: Saat menggunakan kelompok sumber daya khusus, Dataset pertama harus bertipe NAS. Dataset ini dipasang baik ke jalur yang Anda tentukan maupun direktori kerja DSW default di
/home/admin/workspace.
Memasang jalur penyimpanan secara langsung
Bagian ini menggunakan contoh pemasangan jalur Object Storage Service (OSS).
Buat bucket OSS
Aktifkan OSS dan buat bucket.
PentingWilayah bucket harus sama dengan wilayah PAI. Anda tidak dapat mengubah wilayah bucket setelah dibuat.
Pasang jalur OSS
Pada halaman konfigurasi instans DSW (terbuka saat membuat instans atau dengan mengklik Change Configuration untuk instans yang sudah ada), temukan Mount Storage Path. Klik OSS, pilih jalur Bucket OSS yang telah Anda buat, dan masukkan Mount Path. Bidang Advanced Configuration kosong secara default. Konfigurasikan sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Konfigurasi pemasangan lanjutan.
Pemasangan dinamis
Pemasangan dinamis memungkinkan Anda memasang Dataset atau jalur penyimpanan menggunakan SDK PAI dalam instans DSW tanpa perlu me-restart instans.
Catatan: Pemasangan dinamis bersifat read-only, hanya mendukung pemasangan OSS dan NAS, dan saat ini tidak mendukung Sumber daya komputasi cerdas Lingjun.
Persiapan
Instal SDK Python PAI. Buka Terminal instans DSW dan jalankan perintah berikut untuk menginstal SDK Python PAI. Diperlukan Python 3.8 atau lebih baru.
python -m pip install pai>=0.4.11Konfigurasikan kunci akses SDK untuk PAI.
Metode 1: Konfigurasikan instans DSW dengan peran PAI default atau peran RAM kustom. Buka halaman konfigurasi instans, dan di bagian bawah, klik Show More Configurations untuk memilih peran RAM instans. Untuk informasi lebih lanjut, lihat Konfigurasikan peran RAM instans untuk instans DSW.
Metode 2: Konfigurasikan secara manual menggunakan alat baris perintah yang disediakan oleh SDK Python PAI. Jalankan perintah berikut di Terminal untuk mengonfigurasi parameter akses. Untuk contoh, lihat Inisialisasi.
python -m pai.toolkit.config
Contoh
Pemasangan dinamis memungkinkan Anda memasang penyimpanan tanpa mengonfigurasi ulang dan me-restart instans DSW Anda.
Pasang ke jalur default
Data dipasang ke jalur pemasangan default di dalam instans. Jalur default untuk gambar instans pra-konstruksi resmi adalah
/mnt/dynamic/.from pai.dsw import mount # Pasang jalur OSS mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/") # Pasang dataset. Parameter input adalah ID dataset. # mount_point = mount("d-m7rsmu350********")
Pasang ke jalur yang ditentukan
Pemasangan dinamis memerlukan pemasangan data ke jalur tertentu (atau subdirektori) di dalam kontainer. Dapatkan jalur pemasangan dinamis menggunakan API SDK.
from pai.dsw import mount, default_dynamic_mount_path # Dapatkan jalur pemasangan default instans default_path = default_dynamic_mount_path() mount_point = mount("oss://<YourBucketName>/Path/Data/Directory" , mount_point=default_path + "tmp/output/model")
Pasang NAS secara dinamis
from pai.dsw import mount, default_dynamic_mount_path # Dapatkan jalur pemasangan default instans default_path = default_dynamic_mount_path() # Pasang NAS. Titik akhir NAS dan instans harus berada di VPC yang sama. Ganti <region> dengan ID wilayah, seperti cn-hangzhou. mount("nas://06ba748***-xxx.<region>.nas.aliyuncs.com/", default_path+"mynas3/")Lihat semua konfigurasi pemasangan di instans
from pai.dsw import list_dataset_configs print(list_dataset_configs())Lepas data yang telah dipasang
from pai.dsw import mount, unmount mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/") # Parameter input adalah jalur pemasangan, yaitu MountPath yang diperoleh dari list_dataset_configs. # Setelah Anda menjalankan perintah lepas, diperlukan beberapa detik agar perubahan berlaku. unmount(mount_point)
Konfigurasi pemasangan lanjutan
Untuk menyesuaikan dengan skenario baca/tulis yang berbeda, seperti baca/tulis cepat, penulisan tambahan, dan akses read-only, serta mengoptimalkan performa baca dan tulis, Anda dapat mengatur parameter lanjutan saat mengonfigurasi pemasangan.
Lihat konfigurasi pemasangan
Buka instans DSW dan, di Terminal, masukkan perintah berikut untuk memverifikasi bahwa Dataset NAS dan OSS telah dipasang.
# Lihat semua pemasangan
mount
# Periksa jalur pemasangan NAS
mount | grep nas
# Periksa jalur pemasangan OSS
mount | grep ossKeluaran serupa dengan berikut menunjukkan pemasangan berhasil.
Dataset NAS dipasang ke direktori
/mnt/data_nas,/mnt/workspace, dan/home/admin/workspace. Di sini,/mnt/data_nasadalah jalur pemasangan yang ditentukan saat membuat instans DSW, dan dua jalur lainnya adalah direktori kerja default tempat Dataset NAS pertama dipasang. Selama volume NAS dan layanan Anda berjalan dengan benar, data dan kode Anda disimpan secara permanen.Dataset OSS dipasang ke direktori
/mnt/data_ossdi instans DSW.
FAQ
T: Mengapa file OSS yang saya pasang tidak muncul di browser file JupyterLab?
Hal ini terjadi karena browser file JupyterLab menampilkan direktori kerja default (/home/admin/workspace), tetapi jalur OSS Anda kemungkinan besar dipasang ke lokasi lain (misalnya, /mnt/data).
Berikut adalah tiga cara untuk mengakses file Anda:
Gunakan jalur absolut dalam kode: File Anda telah berhasil dipasang. Dalam kode Anda, Anda harus menggunakan jalur pemasangan lengkap untuk mengaksesnya, misalnya,
open('/mnt/data/my_file.csv').Pasang ke subdirektori workspace: Untuk melihat file dengan mudah di UI, atur jalur pemasangan ke subdirektori direktori kerja saat Anda mengonfigurasi pemasangan, seperti
/mnt/workspace/my_oss_data. Setelah pemasangan selesai, Anda dapat melihat file OSS Anda di foldermy_oss_datadi browser file.Akses melalui Terminal: Di Terminal DSW, Anda dapat menggunakan perintah
cd /mnt/datauntuk masuk ke direktori pemasangan. Kemudian, Anda dapat menggunakan perintah sepertilsuntuk melihat dan mengelola file.
T: Mengapa saya mendapatkan kesalahan "Transport endpoint is not connected" atau "Input/output error" saat mengakses jalur OSS yang dipasang di DSW?
Kesalahan ini menunjukkan bahwa koneksi antara instans DSW Anda dan pemasangan OSS telah terputus. Ini sering disebabkan oleh salah satu dari alasan berikut:
Izin Peran RAM Tidak Cukup: Peran RAM yang dikonfigurasikan untuk instans DSW Anda mungkin kekurangan izin yang diperlukan untuk mengakses OSS. Pastikan peran (misalnya,
AliyunPAIDLCAccessingOSSRole) ditetapkan dengan benar dan memiliki izin baca/tulis untuk bucket target.Layanan Pemasangan Crash (OOM): Selama operasi I/O intensif (misalnya, membaca banyak file kecil), layanan pemasangan dasar (
ossfsatauJindoFuse) dapat kehabisan memori dan crash. Anda dapat mengmemperbaikinya dengan menyesuaikan batas memori atau menonaktifkan cache metadata di Konfigurasi Lanjutan dari pengaturan pemasangan Anda. Untuk informasi lebih lanjut, lihat JindoFuse.Cara Memulihkan Koneksi:
Untuk pemasangan saat startup: Solusi termudah adalah me-restart instans DSW. Sistem akan secara otomatis membangun kembali koneksi pemasangan.
Untuk pemasangan dinamis: Anda dapat menjalankan perintah pemasangan ulang menggunakan SDK PAI di notebook atau terminal Anda tanpa me-restart instans.
T: Penyimpanan apa yang dapat saya pasang di DSW, dan apakah mungkin untuk memasang Alibaba Cloud Drive atau tabel MaxCompute?
Anda dapat memasang penyimpanan dari OSS, NAS, dan CPFS dengan membuat Dataset atau memasang jalur penyimpanan langsung. Namun, beberapa layanan tidak dapat dipasang seperti sistem file:
Alibaba Cloud Drive: Pemasangan langsung tidak didukung. Pendekatan yang direkomendasikan adalah terlebih dahulu mengunggah data yang Anda butuhkan ke bucket OSS dan kemudian memasang bucket tersebut di instans DSW Anda.
Tabel MaxCompute: Anda tidak dapat memasang tabel MaxCompute sebagai direktori. Untuk mengakses data dalam MaxCompute, Anda harus menggunakan SDK yang sesuai, seperti PyODPS, dalam kode DSW Anda. Untuk informasi lebih lanjut, lihat Gunakan PyODPS untuk membaca dan menulis tabel MaxCompute.
T: Apakah kode dan data saya akan hilang jika instans DSW saya dihentikan atau dihapus? Bagaimana cara menyimpan data dan kode setelah instans DSW dihentikan atau dihapus?
Ya, data apa pun yang disimpan pada disk sistem lokal instans DSW bersifat sementara dan akan dihapus.
Untuk instans dalam kelompok sumber daya publik, data akan dihapus jika instans dihentikan selama lebih dari 15 hari.
Untuk instans dalam kelompok sumber daya khusus, data akan dihapus segera setelah instans dihentikan atau dihapus.
Untuk memastikan pekerjaan Anda tidak hilang, Anda harus menggunakan layanan penyimpanan eksternal yang dipasang.
Solusi Persistensi: Simpan semua file penting Anda — termasuk kode, dataset, dan model — ke jalur OSS atau NAS yang telah dipasang. Data yang disimpan di OSS atau NAS pribadi Anda bersifat permanen dan independen dari siklus hidup instans DSW.
Solusi Migrasi: Untuk memindahkan pekerjaan Anda ke instans DSW baru, cukup pasang jalur OSS atau NAS yang sama yang berisi data yang telah Anda simpan. Ini adalah cara paling efisien untuk memigrasi lingkungan Anda.
Referensi
Untuk informasi lebih lanjut, lihat FAQ DSW