全部产品
Search
文档中心

Platform For AI:Memasang dataset, OSS, NAS, atau CPFS

更新时间:Nov 05, 2025

Secara default, instans DSW dalam kelompok sumber daya publik dan khusus memiliki penyimpanan data yang terbatas, yang akan dihapus setelah periode tertentu. Untuk memperluas penyimpanan instans Anda, menyimpan data secara permanen, atau berbagi data, Anda dapat memasang Dataset atau jalur penyimpanan langsung ke instans.

Penting
  • Untuk instans DSW dalam kelompok sumber daya publik, data disimpan pada Disk Cloud gratis dengan ruang terbatas (100 GiB). Setelah Anda menghapus instans, atau jika instans dihentikan lebih dari 15 hari, sistem akan membersihkan data pada Disk Cloud.

  • Untuk instans DSW dalam kelompok sumber daya khusus, data disimpan pada disk sistem instans. Setelah instans dihentikan atau dihapus, sistem akan membersihkan penyimpanan sementara ini.

Perbedaan antara memasang dataset dan memasang jalur penyimpanan secara langsung

Jika Anda memerlukan penyimpanan jangka panjang dan kolaborasi tim, pilih untuk memasang Dataset. Jika Anda hanya membutuhkan penyimpanan untuk tugas sementara atau ingin memperluas kapasitas penyimpanan dengan cepat, pasang jalur penyimpanan langsung.

Fitur

Memasang dataset

Memasang jalur penyimpanan

Produk cloud yang didukung

Object Storage Service (OSS), File Storage NAS, Cloud Parallel File Storage (CPFS)

Manajemen versi

Mendukung manajemen versi dan akselerasi data

Tidak mendukung manajemen versi

Berbagi data

Mendukung berbagi lintas beberapa instans

Hanya tersedia untuk instans saat ini

Kompleksitas operasional

Memerlukan pembuatan dan konfigurasi dataset

Sederhana; hanya memerlukan penyediaan jalur.

Skenario

Penyimpanan jangka panjang, kolaborasi tim, dan persyaratan keamanan tinggi

Tugas sementara, perluasan penyimpanan cepat

Perbedaan antara pemasangan saat startup dan pemasangan dinamis

Ada dua cara untuk memasang penyimpanan: pemasangan saat startup dan pemasangan dinamis.

  • Pemasangan saat startup: Konfigurasikan opsi ini ketika Anda membuat instans atau mengubah konfigurasinya. Instans harus di-restart untuk menerapkan perubahan.

  • Pemasangan dinamis: Anda memasang penyimpanan menggunakan kit pengembangan perangkat lunak (SDK) PAI dalam instans yang sedang berjalan. Metode ini tidak memerlukan restart instans.

Batasan

  • Jalur unik: Jalur pemasangan untuk setiap Dataset harus unik.

  • Batasan penulisan: Hindari operasi penulisan yang sering di direktori pemasangan OSS. Hal ini dapat menyebabkan penurunan performa atau kegagalan operasi.

  • Batasan Git: Operasi Git tidak didukung di direktori pemasangan OSS. Jalankan perintah Git di direktori lokal atau jalur lain yang tidak dipasang.

Batasan pemasangan dinamis

  • Batasan read-only: Pemasangan dinamis bersifat read-only. Cocok untuk skenario yang memerlukan pemasangan cepat atau akses read-only sementara.

  • Batasan jenis penyimpanan: Pemasangan dinamis hanya mendukung OSS dan NAS.

  • Batasan sumber daya: Pemasangan dinamis tidak mendukung Sumber daya komputasi cerdas Lingjun.

Pasang saat startup

Untuk memasang penyimpanan saat startup, konfigurasikan parameter Mount Dataset atau Mount Storage Path pada halaman konfigurasi instans. Anda harus me-restart instans untuk menerapkan konfigurasi.

Memasang dataset

  1. Buat dataset

    Masuk ke Konsol PAI. Buka halaman AI Asset Management > Datasets dan buat dataset kustom atau publik. Untuk informasi lebih lanjut, lihat Membuat dan mengelola dataset.

  2. Pasang dataset

    Pada halaman konfigurasi yang muncul saat Anda membuat instans DSW baru, temukan bagian Mount Dataset. Untuk instans yang sudah ada, klik Change Configuration untuk membuka halaman. Klik Custom Dataset, pilih dataset yang telah Anda buat, lalu masukkan Mount Path.

Catatan

Catatan tentang pemasangan dataset kustom:

  • Dataset CPFS: Saat Anda mengonfigurasi Dataset CPFS, Virtual Private Cloud (VPC) dari instans DSW harus sama dengan VPC dari sistem file CPFS. Jika tidak, pembuatan instans akan gagal.

  • Dataset NAS: Saat Anda mengonfigurasi Dataset NAS, atur jaringan dan pilih Grup Keamanan.

  • Menggunakan kelompok sumber daya khusus: Saat menggunakan kelompok sumber daya khusus, Dataset pertama harus bertipe NAS. Dataset ini dipasang baik ke jalur yang Anda tentukan maupun direktori kerja DSW default di /home/admin/workspace.

Memasang jalur penyimpanan secara langsung

Bagian ini menggunakan contoh pemasangan jalur Object Storage Service (OSS).

  1. Buat bucket OSS

    Aktifkan OSS dan buat bucket.

    Penting

    Wilayah bucket harus sama dengan wilayah PAI. Anda tidak dapat mengubah wilayah bucket setelah dibuat.

  2. Pasang jalur OSS

    Pada halaman konfigurasi instans DSW (terbuka saat membuat instans atau dengan mengklik Change Configuration untuk instans yang sudah ada), temukan Mount Storage Path. Klik OSS, pilih jalur Bucket OSS yang telah Anda buat, dan masukkan Mount Path. Bidang Advanced Configuration kosong secara default. Konfigurasikan sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Konfigurasi pemasangan lanjutan.

Pemasangan dinamis

Pemasangan dinamis memungkinkan Anda memasang Dataset atau jalur penyimpanan menggunakan SDK PAI dalam instans DSW tanpa perlu me-restart instans.

Catatan: Pemasangan dinamis bersifat read-only, hanya mendukung pemasangan OSS dan NAS, dan saat ini tidak mendukung Sumber daya komputasi cerdas Lingjun.

Persiapan

  1. Instal SDK Python PAI. Buka Terminal instans DSW dan jalankan perintah berikut untuk menginstal SDK Python PAI. Diperlukan Python 3.8 atau lebih baru.

    python -m pip install pai>=0.4.11
  2. Konfigurasikan kunci akses SDK untuk PAI.

    • Metode 1: Konfigurasikan instans DSW dengan peran PAI default atau peran RAM kustom. Buka halaman konfigurasi instans, dan di bagian bawah, klik Show More Configurations untuk memilih peran RAM instans. Untuk informasi lebih lanjut, lihat Konfigurasikan peran RAM instans untuk instans DSW.

    • Metode 2: Konfigurasikan secara manual menggunakan alat baris perintah yang disediakan oleh SDK Python PAI. Jalankan perintah berikut di Terminal untuk mengonfigurasi parameter akses. Untuk contoh, lihat Inisialisasi.

      python -m pai.toolkit.config

Contoh

Pemasangan dinamis memungkinkan Anda memasang penyimpanan tanpa mengonfigurasi ulang dan me-restart instans DSW Anda.

  • Pasang ke jalur default

    Data dipasang ke jalur pemasangan default di dalam instans. Jalur default untuk gambar instans pra-konstruksi resmi adalah /mnt/dynamic/.

    from pai.dsw import mount
    
    # Pasang jalur OSS
    mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/") 
    
    # Pasang dataset. Parameter input adalah ID dataset.
    # mount_point = mount("d-m7rsmu350********") 
  • Pasang ke jalur yang ditentukan

    Pemasangan dinamis memerlukan pemasangan data ke jalur tertentu (atau subdirektori) di dalam kontainer. Dapatkan jalur pemasangan dinamis menggunakan API SDK.

    from pai.dsw import mount, default_dynamic_mount_path
    
    # Dapatkan jalur pemasangan default instans
    default_path = default_dynamic_mount_path()
    
    mount_point = mount("oss://<YourBucketName>/Path/Data/Directory"
                  , mount_point=default_path + "tmp/output/model")
  • Pasang NAS secara dinamis

    from pai.dsw import mount, default_dynamic_mount_path
    
    # Dapatkan jalur pemasangan default instans
    default_path = default_dynamic_mount_path()
    
    # Pasang NAS. Titik akhir NAS dan instans harus berada di VPC yang sama. Ganti <region> dengan ID wilayah, seperti cn-hangzhou.
    mount("nas://06ba748***-xxx.<region>.nas.aliyuncs.com/", default_path+"mynas3/")
  • Lihat semua konfigurasi pemasangan di instans

    from pai.dsw import list_dataset_configs
    
    print(list_dataset_configs())
  • Lepas data yang telah dipasang

    from pai.dsw import mount, unmount
    
    mount_point = mount("oss://<YourBucketName>/Path/Data/Directory/")
    
    # Parameter input adalah jalur pemasangan, yaitu MountPath yang diperoleh dari list_dataset_configs.
    # Setelah Anda menjalankan perintah lepas, diperlukan beberapa detik agar perubahan berlaku.
    unmount(mount_point)

Konfigurasi pemasangan lanjutan

Untuk menyesuaikan dengan skenario baca/tulis yang berbeda, seperti baca/tulis cepat, penulisan tambahan, dan akses read-only, serta mengoptimalkan performa baca dan tulis, Anda dapat mengatur parameter lanjutan saat mengonfigurasi pemasangan.

Konfigurasi pemasangan lanjutan

Pemasangan OSS

Untuk pemasangan OSS, gunakan konfigurasi lanjutan untuk menentukan pengaturan terkait Jindo atau gunakan ossfs untuk pemasangan.

  • Dalam konfigurasi lanjutan, atur {"mountType":"ossfs"} untuk menggunakan ossfs dalam pemasangan penyimpanan OSS. Jika tidak diatur, Jindo digunakan secara default.

  • Dalam konfigurasi lanjutan, atur parameter Jindo untuk menggunakan pemasangan Jindo secara lebih fleksibel. Skenario umum adalah sebagai berikut:

    • Baca dan tulis cepat: Memungkinkan pengguna membaca dan menulis dengan kecepatan baca tinggi, tetapi operasi bersamaan dapat menyebabkan inkonsistensi data. Cocok untuk pemasangan data pelatihan dan model, tetapi tidak sebagai direktori kerja.

      {
        "fs.oss.download.thread.concurrency": "2 × jumlah inti CPU",
        "fs.oss.upload.thread.concurrency": "2 × jumlah inti CPU",
        "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
      }
      
    • Penulisan tambahan: Memastikan konsistensi data selama penulisan tambahan, tetapi menimpa data yang ada dapat menyebabkan masalah konsistensi. Kecepatan baca sedikit lebih lambat. Cocok untuk menyimpan file bobot model yang telah dilatih.

      {
        "fs.oss.upload.thread.concurrency": "2 × jumlah inti CPU",
        "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
      }
      
    • Baca dan tulis konsisten: Mempertahankan konsistensi data selama operasi baca/tulis bersamaan. Cocok untuk skenario dengan persyaratan konsistensi data tinggi yang dapat mentolerir kecepatan baca yang lebih lambat. Ideal untuk menyimpan proyek kode.

      {
        "fs.jindo.args": "-oattr_timeout=0 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
      }
      
    • Read-only: Hanya memungkinkan operasi baca dan mencegah penulisan. Cocok untuk pemasangan dataset publik.

      {
        "fs.oss.download.thread.concurrency": "2 × jumlah inti CPU",
        "fs.jindo.args": "-oro -oattr_timeout=7200 -oentry_timeout=7200 -onegative_timeout=7200 -okernel_cache -ono_symlink"
      }

NAS tujuan umum dan CPFS

Untuk pemasangan NAS tujuan umum dan CPFS, gunakan konfigurasi lanjutan untuk meningkatkan throughput akses kontainer ke penyimpanan.

Di konfigurasi lanjutan, atur parameter nconnect. Sebagai contoh, {"nconnect":"<example_value>"}. Ganti <example_value> dengan bilangan bulat positif.

Lihat konfigurasi pemasangan

Buka instans DSW dan, di Terminal, masukkan perintah berikut untuk memverifikasi bahwa Dataset NAS dan OSS telah dipasang.

# Lihat semua pemasangan
mount
# Periksa jalur pemasangan NAS
mount | grep nas
# Periksa jalur pemasangan OSS
mount | grep oss

Keluaran serupa dengan berikut menunjukkan pemasangan berhasil.挂载路径

  • Dataset NAS dipasang ke direktori /mnt/data_nas, /mnt/workspace, dan /home/admin/workspace. Di sini, /mnt/data_nas adalah jalur pemasangan yang ditentukan saat membuat instans DSW, dan dua jalur lainnya adalah direktori kerja default tempat Dataset NAS pertama dipasang. Selama volume NAS dan layanan Anda berjalan dengan benar, data dan kode Anda disimpan secara permanen.

  • Dataset OSS dipasang ke direktori /mnt/data_oss di instans DSW.

FAQ

T: Mengapa file OSS yang saya pasang tidak muncul di browser file JupyterLab?

Hal ini terjadi karena browser file JupyterLab menampilkan direktori kerja default (/home/admin/workspace), tetapi jalur OSS Anda kemungkinan besar dipasang ke lokasi lain (misalnya, /mnt/data).

Berikut adalah tiga cara untuk mengakses file Anda:

  • Gunakan jalur absolut dalam kode: File Anda telah berhasil dipasang. Dalam kode Anda, Anda harus menggunakan jalur pemasangan lengkap untuk mengaksesnya, misalnya, open('/mnt/data/my_file.csv').

  • Pasang ke subdirektori workspace: Untuk melihat file dengan mudah di UI, atur jalur pemasangan ke subdirektori direktori kerja saat Anda mengonfigurasi pemasangan, seperti /mnt/workspace/my_oss_data. Setelah pemasangan selesai, Anda dapat melihat file OSS Anda di folder my_oss_data di browser file.

  • Akses melalui Terminal: Di Terminal DSW, Anda dapat menggunakan perintah cd /mnt/data untuk masuk ke direktori pemasangan. Kemudian, Anda dapat menggunakan perintah seperti ls untuk melihat dan mengelola file.

T: Mengapa saya mendapatkan kesalahan "Transport endpoint is not connected" atau "Input/output error" saat mengakses jalur OSS yang dipasang di DSW?

Kesalahan ini menunjukkan bahwa koneksi antara instans DSW Anda dan pemasangan OSS telah terputus. Ini sering disebabkan oleh salah satu dari alasan berikut:

  1. Izin Peran RAM Tidak Cukup: Peran RAM yang dikonfigurasikan untuk instans DSW Anda mungkin kekurangan izin yang diperlukan untuk mengakses OSS. Pastikan peran (misalnya, AliyunPAIDLCAccessingOSSRole) ditetapkan dengan benar dan memiliki izin baca/tulis untuk bucket target.

  2. Layanan Pemasangan Crash (OOM): Selama operasi I/O intensif (misalnya, membaca banyak file kecil), layanan pemasangan dasar (ossfs atau JindoFuse) dapat kehabisan memori dan crash. Anda dapat mengmemperbaikinya dengan menyesuaikan batas memori atau menonaktifkan cache metadata di Konfigurasi Lanjutan dari pengaturan pemasangan Anda. Untuk informasi lebih lanjut, lihat JindoFuse.

  3. Cara Memulihkan Koneksi:

    • Untuk pemasangan saat startup: Solusi termudah adalah me-restart instans DSW. Sistem akan secara otomatis membangun kembali koneksi pemasangan.

    • Untuk pemasangan dinamis: Anda dapat menjalankan perintah pemasangan ulang menggunakan SDK PAI di notebook atau terminal Anda tanpa me-restart instans.

T: Penyimpanan apa yang dapat saya pasang di DSW, dan apakah mungkin untuk memasang Alibaba Cloud Drive atau tabel MaxCompute?

Anda dapat memasang penyimpanan dari OSS, NAS, dan CPFS dengan membuat Dataset atau memasang jalur penyimpanan langsung. Namun, beberapa layanan tidak dapat dipasang seperti sistem file:

  • Alibaba Cloud Drive: Pemasangan langsung tidak didukung. Pendekatan yang direkomendasikan adalah terlebih dahulu mengunggah data yang Anda butuhkan ke bucket OSS dan kemudian memasang bucket tersebut di instans DSW Anda.

  • Tabel MaxCompute: Anda tidak dapat memasang tabel MaxCompute sebagai direktori. Untuk mengakses data dalam MaxCompute, Anda harus menggunakan SDK yang sesuai, seperti PyODPS, dalam kode DSW Anda. Untuk informasi lebih lanjut, lihat Gunakan PyODPS untuk membaca dan menulis tabel MaxCompute.

T: Apakah kode dan data saya akan hilang jika instans DSW saya dihentikan atau dihapus? Bagaimana cara menyimpan data dan kode setelah instans DSW dihentikan atau dihapus?

Ya, data apa pun yang disimpan pada disk sistem lokal instans DSW bersifat sementara dan akan dihapus.

  • Untuk instans dalam kelompok sumber daya publik, data akan dihapus jika instans dihentikan selama lebih dari 15 hari.

  • Untuk instans dalam kelompok sumber daya khusus, data akan dihapus segera setelah instans dihentikan atau dihapus.

Untuk memastikan pekerjaan Anda tidak hilang, Anda harus menggunakan layanan penyimpanan eksternal yang dipasang.

  • Solusi Persistensi: Simpan semua file penting Anda — termasuk kode, dataset, dan model — ke jalur OSS atau NAS yang telah dipasang. Data yang disimpan di OSS atau NAS pribadi Anda bersifat permanen dan independen dari siklus hidup instans DSW.

  • Solusi Migrasi: Untuk memindahkan pekerjaan Anda ke instans DSW baru, cukup pasang jalur OSS atau NAS yang sama yang berisi data yang telah Anda simpan. Ini adalah cara paling efisien untuk memigrasi lingkungan Anda.

Referensi

Untuk informasi lebih lanjut, lihat FAQ DSW