全部产品
Search
文档中心

Platform For AI:Memasang dataset, OSS, NAS, atau CPFS

更新时间:Jan 17, 2026

Secara default, instans DSW dalam kelompok sumber daya publik dan khusus memiliki kapasitas penyimpanan data terbatas, dan datanya dihapus setelah periode tertentu. Untuk memperluas kapasitas penyimpanan instans, menyimpan data secara persisten, atau berbagi data, Anda dapat memasang dataset atau jalur penyimpanan langsung ke instans tersebut.

Penting
  • Untuk instans DSW dalam kelompok sumber daya publik, data disimpan pada disk cloud gratis berkapasitas 100 GiB. Jika Anda menghapus instans atau menghentikannya lebih dari 15 hari, sistem akan menghapus data pada disk cloud tersebut.

  • Untuk instans DSW dalam kelompok sumber daya khusus, data disimpan pada disk sistem instans. Jika instans dihentikan atau dihapus, sistem akan menghapus penyimpanan sementara ini.

Perbedaan antara memasang dataset dan memasang jalur penyimpanan secara langsung

Jika Anda memerlukan penyimpanan jangka panjang dan kolaborasi tim, pasang dataset. Jika hanya membutuhkan penyimpanan untuk tugas sementara atau ingin memperluas kapasitas penyimpanan dengan cepat, pasang jalur penyimpanan secara langsung.

Fitur

Memasang dataset

Memasang jalur penyimpanan secara langsung

Produk cloud yang didukung

Object Storage Service (OSS), File Storage NAS, Cloud Parallel File Storage (CPFS)

Manajemen versi

Mendukung manajemen versi dan akselerasi data

Tidak mendukung manajemen versi

Berbagi data

Mendukung berbagi lintas beberapa instans

Hanya tersedia untuk instans saat ini

Kompleksitas operasional

Memerlukan pembuatan dan konfigurasi dataset

Simple. Pasang jalurnya secara langsung.

Skenario

Penyimpanan jangka panjang, kolaborasi tim, dan persyaratan keamanan tinggi

Tugas sementara, perluasan penyimpanan cepat

Perbedaan antara pemasangan saat startup dan pemasangan dinamis

Anda dapat memasang penyimpanan dengan dua cara: saat startup atau secara dinamis.

  • Pemasangan saat startup: Anda dapat mengonfigurasi opsi ini saat membuat instans atau mengubah konfigurasinya. Instans harus direstart agar perubahan berlaku.

  • Pemasangan dinamis: Anda dapat memasang penyimpanan menggunakan kit pengembangan perangkat lunak (SDK) PAI pada instans yang sedang berjalan. Metode ini tidak memerlukan restart instans.

Batasan

  • Jalur unik: Jalur pemasangan untuk setiap dataset harus unik.

  • Batasan penulisan: Hindari operasi penulisan yang sering dalam direktori pemasangan OSS. Hal ini dapat menyebabkan degradasi performa atau kegagalan operasi.

  • Batasan Git: Operasi Git tidak didukung dalam direktori pemasangan OSS. Jalankan perintah Git di direktori lokal atau jalur non-terpasang lainnya.

Batasan pemasangan dinamis

  • Batasan read-only: Pemasangan dinamis bersifat read-only. Cocok untuk skenario yang memerlukan pemasangan cepat atau akses read-only sementara.

  • Batasan jenis penyimpanan: Pemasangan dinamis hanya mendukung pemasangan OSS dan NAS.

  • Batasan resource: Pemasangan dinamis tidak mendukung Sumber daya komputasi cerdas Lingjun.

Pasang saat startup

Untuk memasang penyimpanan saat startup, Anda dapat mengatur parameter Dataset Mounting atau Storage Path Mounting pada halaman konfigurasi instans. Anda harus merestart instans agar konfigurasi berlaku.

Memasang dataset

  1. Buat dataset

    Login ke Konsol PAI. Pada halaman AI Asset Management > Dataset, buat dataset kustom atau dataset publik. Untuk informasi selengkapnya, lihat Buat dan kelola dataset.

  2. Pasang dataset

    Pada halaman konfigurasi instans DSW baru, temukan area konfigurasi Dataset. Untuk mengubah instans yang sudah ada, klik Change Settings untuk membuka halaman tersebut. Klik Custom, pilih dataset yang telah Anda buat, lalu masukkan Mount Path.

Catatan

Catatan tentang pemasangan dataset kustom:

  • Dataset CPFS: Saat mengonfigurasi dataset CPFS, virtual private cloud (VPC) instans DSW harus sama dengan VPC sistem file CPFS. Jika tidak, pembuatan instans akan gagal.

  • Dataset NAS: Saat mengonfigurasi dataset NAS, Anda harus menyiapkan jaringan dan memilih grup keamanan.

  • Menggunakan kelompok sumber daya khusus: Saat menggunakan kelompok sumber daya khusus, dataset pertama harus bertipe NAS. Dataset ini dipasang ke jalur yang Anda tentukan dan juga ke direktori kerja default DSW di /home/admin/workspace.

Memasang jalur penyimpanan secara langsung

Bagian ini menggunakan contoh pemasangan jalur Object Storage Service (OSS).

  1. Buat bucket OSS

    Aktifkan OSS dan buat bucket.

    Penting

    Wilayah bucket harus sama dengan wilayah PAI. Anda tidak dapat mengubah wilayah bucket setelah dibuat.

  2. Pasang jalur OSS

    Pada halaman konfigurasi instans DSW—yang dapat Anda buka saat membuat instans atau dengan mengklik Change Settings untuk instans yang sudah ada—temukan area Storage Path Mounting. Klik OSS, pilih jalur Bucket OSS yang telah Anda buat, lalu masukkan Mount Path. Field Advanced Configurations kosong secara default. Anda dapat mengonfigurasinya sesuai kebutuhan. Untuk informasi selengkapnya, lihat Konfigurasi pemasangan lanjutan.

Pemasangan dinamis

Pemasangan dinamis memungkinkan Anda memasang dataset atau jalur penyimpanan dengan menulis kode menggunakan SDK PAI di dalam instans DSW. Anda tidak perlu merestart instans.

Catatan: Pemasangan dinamis bersifat read-only, hanya mendukung pemasangan OSS dan NAS, serta tidak mendukung Sumber daya komputasi cerdas Lingjun.

Persiapan

  1. Instal PAI Python SDK. Buka terminal instans DSW dan jalankan perintah berikut untuk menginstal PAI Python SDK. Diperlukan Python 3.8 atau versi yang lebih baru.

    python -m pip install pai>=0.4.11
  2. Konfigurasikan kunci akses SDK untuk PAI.

    • Metode 1: Konfigurasikan instans DSW dengan role PAI default atau role RAM kustom. Pada halaman konfigurasi instans, klik Show More di bagian bawah halaman untuk memilih instance RAM role. Untuk informasi selengkapnya, lihat Konfigurasikan instance RAM role untuk instans DSW.

    • Metode 2: Konfigurasikan kunci akses secara manual menggunakan antarmuka baris perintah yang disediakan oleh PAI Python SDK. Jalankan perintah berikut di terminal untuk mengonfigurasi parameter akses. Untuk contoh, lihat Inisialisasi.

      python -m pai.toolkit.config

Contoh

Pemasangan dinamis memungkinkan Anda memasang penyimpanan tanpa mengonfigurasi ulang dan merestart instans DSW. Contoh berikut menunjukkan cara menggunakan fitur ini:

  • Pasang ke jalur default

    Data dipasang ke jalur pemasangan default di dalam instans. Untuk citra runtime resmi yang telah dibuat sebelumnya, jalur default-nya adalah /mnt/dynamic/.

    from pai.dsw import mount
    
    # Memasang jalur OSS
    mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/") 
    
    # Memasang dataset. Parameter input adalah ID dataset.
    # mount_point = mount("d-m7rsmu350********")
  • Pasang ke jalur yang ditentukan

    Pemasangan dinamis mengharuskan Anda memasang data ke jalur tertentu atau subdirektori dalam kontainer. Anda dapat memperoleh jalur pemasangan dinamis menggunakan API SDK.

    from pai.dsw import mount, default_dynamic_mount_path
    
    # Mendapatkan jalur pemasangan default instans
    default_path = default_dynamic_mount_path()
    
    mount_point = mount("oss://<YourBucketName>/Path/Data/Directory"
                  , mount_point=default_path + "tmp/output/model")

  • Memasang sistem file NAS secara dinamis

    from pai.dsw import mount, default_dynamic_mount_path
    
    # Mendapatkan jalur pemasangan default instans
    default_path = default_dynamic_mount_path()
    
    # Memasang NAS. Titik akhir NAS dan instans harus berada dalam VPC yang sama. Ganti <region> dengan ID wilayah, seperti cn-hangzhou.
    mount("nas://06ba748***-xxx.<region>.nas.aliyuncs.com/", default_path+"mynas3/")

  • Anda dapat melihat semua konfigurasi pemasangan di dalam instans.

    from pai.dsw import list_dataset_configs
    
    print(list_dataset_configs())

  • Lepas data yang telah dipasang

    from pai.dsw import mount, unmount
    
    mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/")
    
    # Parameter input adalah jalur pemasangan, yaitu MountPath yang diperoleh dari list_dataset_configs.
    # Setelah menjalankan perintah unmount, perubahan akan berlaku dalam beberapa detik.
    unmount(mount_point)

Konfigurasi pemasangan lanjutan

Saat mengonfigurasi pemasangan, Anda juga dapat mengatur parameter lanjutan untuk mengakomodasi berbagai skenario baca-tulis, seperti baca-tulis cepat, penulisan inkremental, akses read-only, serta mengoptimalkan performa baca-tulis.

Konfigurasi pemasangan lanjutan

Pemasangan OSS

Untuk pemasangan OSS, Anda dapat menggunakan konfigurasi lanjutan untuk menentukan pengaturan terkait Jindo atau menggunakan ossfs untuk pemasangan.

  • Dalam konfigurasi lanjutan, atur {"mountType":"ossfs"} untuk menggunakan ossfs dalam pemasangan penyimpanan OSS. Jika parameter ini tidak diatur, Jindo digunakan secara default.

  • Dalam konfigurasi lanjutan, Anda dapat mengatur parameter Jindo untuk menggunakan pemasangan Jindo secara lebih fleksibel. Skenario umum sebagai berikut:

    • Baca-tulis cepat: Memungkinkan pengguna melakukan baca-tulis dengan kecepatan baca tinggi, tetapi operasi konkuren dapat menyebabkan inkonsistensi data. Mode ini cocok untuk memasang data pelatihan dan model, tetapi tidak cocok sebagai direktori kerja.

      {
        "fs.oss.download.thread.concurrency": "2 × jumlah core CPU",
        "fs.oss.upload.thread.concurrency": "2 × jumlah core CPU",
        "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
      }
    • Penulisan inkremental: Menjamin konsistensi data selama penulisan inkremental, tetapi menimpa data yang sudah ada dapat menyebabkan masalah konsistensi. Kecepatan baca sedikit lebih lambat. Mode ini cocok untuk menyimpan file bobot model yang telah dilatih.

      {
        "fs.oss.upload.thread.concurrency": "2 × jumlah core CPU",
        "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
      }
    • Baca-tulis konsisten: Mempertahankan konsistensi data selama operasi baca-tulis konkuren. Mode ini cocok untuk skenario dengan persyaratan konsistensi data tinggi yang dapat mentolerir kecepatan baca lebih lambat. Ideal untuk menyimpan proyek kode.

      {
        "fs.jindo.args": "-oattr_timeout=0 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
      }
    • Read-only: Hanya mengizinkan operasi baca dan mencegah penulisan. Mode ini cocok untuk memasang dataset publik.

      {
        "fs.oss.download.thread.concurrency": "2 × jumlah core CPU",
        "fs.jindo.args": "-oro -oattr_timeout=7200 -oentry_timeout=7200 -onegative_timeout=7200 -okernel_cache -ono_symlink"
      }

NAS tujuan umum dan CPFS

Untuk pemasangan NAS tujuan umum dan CPFS, Anda dapat menggunakan konfigurasi lanjutan untuk meningkatkan throughput akses kontainer ke penyimpanan.

Di konfigurasi lanjutan, atur parameter nconnect. Sebagai contoh, {"nconnect":"<example_value>"}. Ganti <example_value> dengan bilangan bulat positif.

Lihat konfigurasi pemasangan

Buka instans DSW dan masukkan perintah berikut di Terminal untuk memverifikasi bahwa dataset NAS dan OSS telah dipasang.

# Lihat semua pemasangan
mount
# Cari jalur pemasangan NAS
mount | grep nas
# Cari jalur pemasangan OSS
mount | grep oss

Keluaran serupa dengan berikut menunjukkan pemasangan berhasil.挂载路径

  • Dataset NAS dipasang ke direktori /mnt/data_nas, /mnt/workspace, dan /home/admin/workspace. Dalam contoh ini, /mnt/data_nas adalah jalur pemasangan yang ditentukan saat instans DSW dibuat, sedangkan dua jalur lainnya adalah direktori kerja default tempat dataset NAS pertama dipasang. Selama volume dan layanan NAS Anda berjalan dengan baik, data dan kode Anda akan disimpan secara persisten.

  • Dataset OSS dipasang ke direktori /mnt/data_oss di instans DSW.

FAQ

Q: Mengapa file OSS yang saya pasang tidak muncul di browser file JupyterLab?

Masalah ini terjadi karena browser file DSW menampilkan direktori kerja default (/mnt/workspace), tetapi jalur OSS Anda dipasang ke lokasi berbeda, misalnya /mnt/data. Oleh karena itu, file tidak muncul dalam daftar file di sebelah kiri.

Solusi:

  • Akses melalui kode: File Anda sudah dipasang. Dalam kode Anda, gunakan jalur pemasangan lengkap untuk mengaksesnya, misalnya open('/mnt/data/my_file.csv').

  • Ubah titik pemasangan: Untuk melihat file di UI, atur jalur pemasangan ke subdirektori direktori kerja saat mengonfigurasi pemasangan, misalnya /mnt/workspace/my_oss_data. Setelah pemasangan selesai, Anda dapat melihat file OSS Anda di folder my_oss_data di browser file.

  • Akses melalui terminal: Di Terminal DSW, Anda dapat menggunakan perintah cd /mnt/data untuk masuk ke direktori pemasangan. Kemudian, Anda dapat menggunakan perintah seperti ls untuk melihat dan mengelola file.

Q: Mengapa saya mendapatkan error "Transport endpoint is not connected" atau "Input/output error" saat mengakses jalur OSS yang dipasang di DSW?

Error ini menunjukkan bahwa koneksi antara instans DSW dan pemasangan OSS terputus. Penyebab dan metode troubleshooting-nya sebagai berikut:

  1. Masalah izin role RAM: Periksa apakah role RAM yang dikonfigurasi untuk instans DSW Anda diberikan izin untuk mengakses OSS, misalnya AliyunPAIDLCAccessingOSSRole. Izin yang tidak mencukupi merupakan penyebab umum kegagalan pembacaan dari OSS.

  2. Sumber daya layanan pemasangan tidak mencukupi: Selama operasi baca-tulis acak intensif atau operasi pada banyak file kecil, layanan pemasangan dasar (ossfs atau JindoFuse) dapat kehabisan memori (OOM) dan crash. Anda dapat mengatasi masalah ini dengan menonaktifkan cache metadata atau meningkatkan konfigurasi memori dalam pengaturan konfigurasi lanjutan pemasangan. Untuk informasi selengkapnya, lihat JindoFuse.

  3. Memulihkan koneksi:

    • Untuk pemasangan saat startup, solusi paling sederhana adalah merestart instans DSW. Sistem akan secara otomatis membangun kembali koneksi pemasangan.

    • Anda juga dapat menjalankan perintah pemasangan dinamis menggunakan SDK PAI untuk memasang ulang jalur tanpa merestart instans.

Q: Jenis data apa saja yang dapat saya pasang di DSW? Apakah saya bisa langsung memasang Alibaba Cloud Drive atau tabel MaxCompute?

DSW mendukung pemasangan penyimpanan dari OSS, NAS, dan CPFS dengan membuat dataset atau memasang jalur penyimpanan secara langsung.

  • Alibaba Cloud Drive: Pemasangan langsung tidak didukung. Pendekatan yang direkomendasikan adalah mengunggah data yang Anda butuhkan ke bucket OSS, lalu memasang bucket tersebut di instans DSW Anda.

  • Tabel MaxCompute: Anda tidak dapat memasang tabel MaxCompute (sebelumnya ODPS) sebagai direktori. Untuk mengakses data di MaxCompute, Anda harus menggunakan SDK yang sesuai, seperti PyODPS, dalam kode DSW Anda. Untuk informasi selengkapnya, lihat Gunakan PyODPS untuk membaca dan menulis tabel MaxCompute.

Q: Apakah kode dan data saya akan hilang jika instans DSW saya dihentikan atau dihapus? Bagaimana cara menyimpan dan memigrasikan data secara persisten?

Disk sistem instans DSW hanya menyediakan penyimpanan sementara. Untuk instans dalam kelompok sumber daya publik, data dihapus jika instans dihentikan lebih dari 15 hari. Untuk instans dalam kelompok sumber daya khusus, data dihapus segera setelah instans dihentikan atau dihapus.

Untuk menyimpan data dan kode Anda secara persisten serta memindahkannya antar instans, Anda harus menggunakan layanan penyimpanan eksternal yang dipasang.

  • Solusi persistensi: Simpan semua file penting Anda, termasuk kode, dataset, dan model, ke jalur OSS atau NAS yang dipasang. Data yang disimpan di OSS atau NAS pribadi Anda bersifat persisten dan independen dari siklus hidup instans DSW.

  • Solusi migrasi: Untuk memindahkan pekerjaan Anda ke instans DSW baru, Anda dapat memasang jalur OSS atau NAS yang sama yang berisi data persisten Anda. Ini adalah cara paling efisien untuk memigrasikan lingkungan Anda.

Referensi

Untuk FAQ lainnya, lihat DSW FAQ.