Secara default, instans DSW dalam kelompok sumber daya publik dan khusus memiliki kapasitas penyimpanan data terbatas, dan datanya dihapus setelah periode tertentu. Untuk memperluas kapasitas penyimpanan instans, menyimpan data secara persisten, atau berbagi data, Anda dapat memasang dataset atau jalur penyimpanan langsung ke instans tersebut.
Untuk instans DSW dalam kelompok sumber daya publik, data disimpan pada disk cloud gratis berkapasitas 100 GiB. Jika Anda menghapus instans atau menghentikannya lebih dari 15 hari, sistem akan menghapus data pada disk cloud tersebut.
Untuk instans DSW dalam kelompok sumber daya khusus, data disimpan pada disk sistem instans. Jika instans dihentikan atau dihapus, sistem akan menghapus penyimpanan sementara ini.
Perbedaan antara memasang dataset dan memasang jalur penyimpanan secara langsung
Jika Anda memerlukan penyimpanan jangka panjang dan kolaborasi tim, pasang dataset. Jika hanya membutuhkan penyimpanan untuk tugas sementara atau ingin memperluas kapasitas penyimpanan dengan cepat, pasang jalur penyimpanan secara langsung.
Fitur | Memasang dataset | Memasang jalur penyimpanan secara langsung |
Produk cloud yang didukung | Object Storage Service (OSS), File Storage NAS, Cloud Parallel File Storage (CPFS) | |
Manajemen versi | Mendukung manajemen versi dan akselerasi data | Tidak mendukung manajemen versi |
Berbagi data | Mendukung berbagi lintas beberapa instans | Hanya tersedia untuk instans saat ini |
Kompleksitas operasional | Memerlukan pembuatan dan konfigurasi dataset | Simple. Pasang jalurnya secara langsung. |
Skenario | Penyimpanan jangka panjang, kolaborasi tim, dan persyaratan keamanan tinggi | Tugas sementara, perluasan penyimpanan cepat |
Perbedaan antara pemasangan saat startup dan pemasangan dinamis
Anda dapat memasang penyimpanan dengan dua cara: saat startup atau secara dinamis.
Pemasangan saat startup: Anda dapat mengonfigurasi opsi ini saat membuat instans atau mengubah konfigurasinya. Instans harus direstart agar perubahan berlaku.
Pemasangan dinamis: Anda dapat memasang penyimpanan menggunakan kit pengembangan perangkat lunak (SDK) PAI pada instans yang sedang berjalan. Metode ini tidak memerlukan restart instans.
Batasan
Jalur unik: Jalur pemasangan untuk setiap dataset harus unik.
Batasan penulisan: Hindari operasi penulisan yang sering dalam direktori pemasangan OSS. Hal ini dapat menyebabkan degradasi performa atau kegagalan operasi.
Batasan Git: Operasi Git tidak didukung dalam direktori pemasangan OSS. Jalankan perintah Git di direktori lokal atau jalur non-terpasang lainnya.
Batasan pemasangan dinamis
Batasan read-only: Pemasangan dinamis bersifat read-only. Cocok untuk skenario yang memerlukan pemasangan cepat atau akses read-only sementara.
Batasan jenis penyimpanan: Pemasangan dinamis hanya mendukung pemasangan OSS dan NAS.
Batasan resource: Pemasangan dinamis tidak mendukung Sumber daya komputasi cerdas Lingjun.
Pasang saat startup
Untuk memasang penyimpanan saat startup, Anda dapat mengatur parameter Dataset Mounting atau Storage Path Mounting pada halaman konfigurasi instans. Anda harus merestart instans agar konfigurasi berlaku.
Memasang dataset
Buat dataset
Login ke Konsol PAI. Pada halaman AI Asset Management > Dataset, buat dataset kustom atau dataset publik. Untuk informasi selengkapnya, lihat Buat dan kelola dataset.
Pasang dataset
Pada halaman konfigurasi instans DSW baru, temukan area konfigurasi Dataset. Untuk mengubah instans yang sudah ada, klik Change Settings untuk membuka halaman tersebut. Klik Custom, pilih dataset yang telah Anda buat, lalu masukkan Mount Path.
Catatan tentang pemasangan dataset kustom:
Dataset CPFS: Saat mengonfigurasi dataset CPFS, virtual private cloud (VPC) instans DSW harus sama dengan VPC sistem file CPFS. Jika tidak, pembuatan instans akan gagal.
Dataset NAS: Saat mengonfigurasi dataset NAS, Anda harus menyiapkan jaringan dan memilih grup keamanan.
Menggunakan kelompok sumber daya khusus: Saat menggunakan kelompok sumber daya khusus, dataset pertama harus bertipe NAS. Dataset ini dipasang ke jalur yang Anda tentukan dan juga ke direktori kerja default DSW di
/home/admin/workspace.
Memasang jalur penyimpanan secara langsung
Bagian ini menggunakan contoh pemasangan jalur Object Storage Service (OSS).
Buat bucket OSS
Aktifkan OSS dan buat bucket.
PentingWilayah bucket harus sama dengan wilayah PAI. Anda tidak dapat mengubah wilayah bucket setelah dibuat.
Pasang jalur OSS
Pada halaman konfigurasi instans DSW—yang dapat Anda buka saat membuat instans atau dengan mengklik Change Settings untuk instans yang sudah ada—temukan area Storage Path Mounting. Klik OSS, pilih jalur Bucket OSS yang telah Anda buat, lalu masukkan Mount Path. Field Advanced Configurations kosong secara default. Anda dapat mengonfigurasinya sesuai kebutuhan. Untuk informasi selengkapnya, lihat Konfigurasi pemasangan lanjutan.
Pemasangan dinamis
Pemasangan dinamis memungkinkan Anda memasang dataset atau jalur penyimpanan dengan menulis kode menggunakan SDK PAI di dalam instans DSW. Anda tidak perlu merestart instans.
Catatan: Pemasangan dinamis bersifat read-only, hanya mendukung pemasangan OSS dan NAS, serta tidak mendukung Sumber daya komputasi cerdas Lingjun.
Persiapan
Instal PAI Python SDK. Buka terminal instans DSW dan jalankan perintah berikut untuk menginstal PAI Python SDK. Diperlukan Python 3.8 atau versi yang lebih baru.
python -m pip install pai>=0.4.11Konfigurasikan kunci akses SDK untuk PAI.
Metode 1: Konfigurasikan instans DSW dengan role PAI default atau role RAM kustom. Pada halaman konfigurasi instans, klik Show More di bagian bawah halaman untuk memilih instance RAM role. Untuk informasi selengkapnya, lihat Konfigurasikan instance RAM role untuk instans DSW.
Metode 2: Konfigurasikan kunci akses secara manual menggunakan antarmuka baris perintah yang disediakan oleh PAI Python SDK. Jalankan perintah berikut di terminal untuk mengonfigurasi parameter akses. Untuk contoh, lihat Inisialisasi.
python -m pai.toolkit.config
Contoh
Pemasangan dinamis memungkinkan Anda memasang penyimpanan tanpa mengonfigurasi ulang dan merestart instans DSW. Contoh berikut menunjukkan cara menggunakan fitur ini:
Pasang ke jalur default
Data dipasang ke jalur pemasangan default di dalam instans. Untuk citra runtime resmi yang telah dibuat sebelumnya, jalur default-nya adalah
/mnt/dynamic/.from pai.dsw import mount # Memasang jalur OSS mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/") # Memasang dataset. Parameter input adalah ID dataset. # mount_point = mount("d-m7rsmu350********")
Pasang ke jalur yang ditentukan
Pemasangan dinamis mengharuskan Anda memasang data ke jalur tertentu atau subdirektori dalam kontainer. Anda dapat memperoleh jalur pemasangan dinamis menggunakan API SDK.
from pai.dsw import mount, default_dynamic_mount_path # Mendapatkan jalur pemasangan default instans default_path = default_dynamic_mount_path() mount_point = mount("oss://<YourBucketName>/Path/Data/Directory" , mount_point=default_path + "tmp/output/model")
Memasang sistem file NAS secara dinamis
from pai.dsw import mount, default_dynamic_mount_path # Mendapatkan jalur pemasangan default instans default_path = default_dynamic_mount_path() # Memasang NAS. Titik akhir NAS dan instans harus berada dalam VPC yang sama. Ganti <region> dengan ID wilayah, seperti cn-hangzhou. mount("nas://06ba748***-xxx.<region>.nas.aliyuncs.com/", default_path+"mynas3/")Anda dapat melihat semua konfigurasi pemasangan di dalam instans.
from pai.dsw import list_dataset_configs print(list_dataset_configs())Lepas data yang telah dipasang
from pai.dsw import mount, unmount mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/") # Parameter input adalah jalur pemasangan, yaitu MountPath yang diperoleh dari list_dataset_configs. # Setelah menjalankan perintah unmount, perubahan akan berlaku dalam beberapa detik. unmount(mount_point)
Konfigurasi pemasangan lanjutan
Saat mengonfigurasi pemasangan, Anda juga dapat mengatur parameter lanjutan untuk mengakomodasi berbagai skenario baca-tulis, seperti baca-tulis cepat, penulisan inkremental, akses read-only, serta mengoptimalkan performa baca-tulis.
Lihat konfigurasi pemasangan
Buka instans DSW dan masukkan perintah berikut di Terminal untuk memverifikasi bahwa dataset NAS dan OSS telah dipasang.
# Lihat semua pemasangan
mount
# Cari jalur pemasangan NAS
mount | grep nas
# Cari jalur pemasangan OSS
mount | grep ossKeluaran serupa dengan berikut menunjukkan pemasangan berhasil.
Dataset NAS dipasang ke direktori /mnt/data_nas, /mnt/workspace, dan /home/admin/workspace. Dalam contoh ini, /mnt/data_nas adalah jalur pemasangan yang ditentukan saat instans DSW dibuat, sedangkan dua jalur lainnya adalah direktori kerja default tempat dataset NAS pertama dipasang. Selama volume dan layanan NAS Anda berjalan dengan baik, data dan kode Anda akan disimpan secara persisten.
Dataset OSS dipasang ke direktori /mnt/data_oss di instans DSW.
FAQ
Q: Mengapa file OSS yang saya pasang tidak muncul di browser file JupyterLab?
Masalah ini terjadi karena browser file DSW menampilkan direktori kerja default (/mnt/workspace), tetapi jalur OSS Anda dipasang ke lokasi berbeda, misalnya /mnt/data. Oleh karena itu, file tidak muncul dalam daftar file di sebelah kiri.
Solusi:
Akses melalui kode: File Anda sudah dipasang. Dalam kode Anda, gunakan jalur pemasangan lengkap untuk mengaksesnya, misalnya
open('/mnt/data/my_file.csv').Ubah titik pemasangan: Untuk melihat file di UI, atur jalur pemasangan ke subdirektori direktori kerja saat mengonfigurasi pemasangan, misalnya
/mnt/workspace/my_oss_data. Setelah pemasangan selesai, Anda dapat melihat file OSS Anda di foldermy_oss_datadi browser file.Akses melalui terminal: Di Terminal DSW, Anda dapat menggunakan perintah
cd /mnt/datauntuk masuk ke direktori pemasangan. Kemudian, Anda dapat menggunakan perintah sepertilsuntuk melihat dan mengelola file.
Q: Mengapa saya mendapatkan error "Transport endpoint is not connected" atau "Input/output error" saat mengakses jalur OSS yang dipasang di DSW?
Error ini menunjukkan bahwa koneksi antara instans DSW dan pemasangan OSS terputus. Penyebab dan metode troubleshooting-nya sebagai berikut:
Masalah izin role RAM: Periksa apakah role RAM yang dikonfigurasi untuk instans DSW Anda diberikan izin untuk mengakses OSS, misalnya
AliyunPAIDLCAccessingOSSRole. Izin yang tidak mencukupi merupakan penyebab umum kegagalan pembacaan dari OSS.Sumber daya layanan pemasangan tidak mencukupi: Selama operasi baca-tulis acak intensif atau operasi pada banyak file kecil, layanan pemasangan dasar (
ossfsatauJindoFuse) dapat kehabisan memori (OOM) dan crash. Anda dapat mengatasi masalah ini dengan menonaktifkan cache metadata atau meningkatkan konfigurasi memori dalam pengaturan konfigurasi lanjutan pemasangan. Untuk informasi selengkapnya, lihat JindoFuse.Memulihkan koneksi:
Untuk pemasangan saat startup, solusi paling sederhana adalah merestart instans DSW. Sistem akan secara otomatis membangun kembali koneksi pemasangan.
Anda juga dapat menjalankan perintah pemasangan dinamis menggunakan SDK PAI untuk memasang ulang jalur tanpa merestart instans.
Q: Jenis data apa saja yang dapat saya pasang di DSW? Apakah saya bisa langsung memasang Alibaba Cloud Drive atau tabel MaxCompute?
DSW mendukung pemasangan penyimpanan dari OSS, NAS, dan CPFS dengan membuat dataset atau memasang jalur penyimpanan secara langsung.
Alibaba Cloud Drive: Pemasangan langsung tidak didukung. Pendekatan yang direkomendasikan adalah mengunggah data yang Anda butuhkan ke bucket OSS, lalu memasang bucket tersebut di instans DSW Anda.
Tabel MaxCompute: Anda tidak dapat memasang tabel MaxCompute (sebelumnya ODPS) sebagai direktori. Untuk mengakses data di MaxCompute, Anda harus menggunakan SDK yang sesuai, seperti PyODPS, dalam kode DSW Anda. Untuk informasi selengkapnya, lihat Gunakan PyODPS untuk membaca dan menulis tabel MaxCompute.
Q: Apakah kode dan data saya akan hilang jika instans DSW saya dihentikan atau dihapus? Bagaimana cara menyimpan dan memigrasikan data secara persisten?
Disk sistem instans DSW hanya menyediakan penyimpanan sementara. Untuk instans dalam kelompok sumber daya publik, data dihapus jika instans dihentikan lebih dari 15 hari. Untuk instans dalam kelompok sumber daya khusus, data dihapus segera setelah instans dihentikan atau dihapus.
Untuk menyimpan data dan kode Anda secara persisten serta memindahkannya antar instans, Anda harus menggunakan layanan penyimpanan eksternal yang dipasang.
Solusi persistensi: Simpan semua file penting Anda, termasuk kode, dataset, dan model, ke jalur OSS atau NAS yang dipasang. Data yang disimpan di OSS atau NAS pribadi Anda bersifat persisten dan independen dari siklus hidup instans DSW.
Solusi migrasi: Untuk memindahkan pekerjaan Anda ke instans DSW baru, Anda dapat memasang jalur OSS atau NAS yang sama yang berisi data persisten Anda. Ini adalah cara paling efisien untuk memigrasikan lingkungan Anda.
Referensi
Untuk FAQ lainnya, lihat DSW FAQ.