全部产品
Search
文档中心

DataWorks:Gunakan set data

更新时间:Nov 10, 2025

Anda dapat menggunakan set data di node, seperti node Shell, Python, dan Notebook, untuk membaca dan menulis data di NAS atau OSS. Set data juga dapat digunakan sebagai penyimpanan saat membuat instans lingkungan pengembangan pribadi.

Penting

Untuk informasi selengkapnya tentang cara membuat set data, lihat Kelola Set Data.

Latar Belakang

Saat mengembangkan data di DataWorks, Anda dapat memanfaatkan fitur set data untuk membaca dan menulis data yang disimpan di OSS dan NAS. Fitur ini mendukung pembuatan dan pengelolaan set data beserta versinya. Dengan pengelolaan versi, Anda dapat melacak perubahan data dan dengan cepat kembali ke versi sebelumnya jika terjadi masalah pada versi baru, sehingga membantu menjaga kelancaran operasi bisnis.

Batasan

  • Set data hanya didukung di versi baru DataStudio.

  • Kelompok sumber daya: Anda hanya dapat mengakses set data di node pengembangan data menggunakan kelompok sumber daya Serverless.

  • Objek yang didukung: Set data hanya didukung di node Shell, node Python, Notebook, dan lingkungan pengembangan pribadi. Anda dapat memasang maksimal 5 set data ke setiap objek.

  • Kelas penyimpanan: Set data mendukung Object Storage Service (OSS) dan Apsara File Storage NAS (NAS) yang menggunakan protokol NFS.

  • Izin: Jika titik pemasangan set data diatur sebagai read-only, Anda tidak dapat memodifikasi atau menghapus folder atau file dalam set data tersebut. Upaya untuk melakukannya akan menghasilkan kesalahan izin.

Gunakan set data di node

Bagian ini memberikan contoh penggunaan set data di sebuah node. Dalam contoh ini, sebuah set data OSS dibuat di DataWorks. Jalur OSS oss://datasets-oss.oss-cn-shanghai.aliyuncs.com/dataset01/v1/ dipasang ke jalur set data DataWorks /mnt/data/dataset01. Setelah itu, Anda dapat melakukan operasi baca dan tulis pada set data tersebut di dalam node.

Persiapan: Buat set data

  1. Buat bucket atau buat sistem file.

    Contoh ini menggunakan set data OSS. Sebuah bucket bernama datasets-oss dibuat di wilayah Tiongkok (Shanghai), dan folder /dataset01/v1 dibuat.

  2. Buat set data.

    Dalam contoh ini, sebuah set data OSS bernama datasets-oss dibuat. Jalur OSS oss://datasets-oss.oss-cn-shanghai.aliyuncs.com/dataset01/v1/ dipasang ke /mnt/data/dataset01.

1. Konfigurasikan set data untuk sebuah node

Konfigurasikan set data datasets-oss di Debug Configurations sebuah node Shell atau Python.

Penting
  • Sebelum menerbitkan, Anda harus menambahkan dan menyinkronkan set data ke Scheduling Configuration.

  • Anda harus mengalokasikan minimal 0,5 unit komputasi (CU) ke node tersebut untuk menggunakan set data.

image

Parameter

Deskripsi

Dataset

Konfigurasikan set data yang dapat diakses dalam kode node saat ini.

  • Untuk set data OSS, berikan izin kelompok sumber daya DataWorks untuk mengakses bucket OSS yang dikonfigurasi saat pertama kali membaca data dari set data tersebut.

  • Untuk set data NAS, pastikan virtual private cloud (VPC) kelompok sumber daya DataWorks terhubung ke VPC titik pemasangan NAS. Untuk informasi lebih lanjut tentang konfigurasi, lihat Ikhtisar solusi koneksi jaringan.

Dalam contoh ini, pilih set data OSS datasets-oss yang dibuat di DataWorks dan pilih versi V1.

Mount Path

Konfigurasikan jalur yang digunakan kode pada node saat ini untuk mengakses set data. Kolom ini secara otomatis diisi dengan Default Mount Path dari definisi set data.

Penting

Jalur pemasangan tidak boleh sama jika Anda memasang beberapa set data ke node yang sama.

Advanced Configuration

Opsional. Anda dapat menentukan alat dan parameter untuk membaca dan menulis data OSS atau menentukan konfigurasi untuk membaca dan menulis sistem file NAS dalam format JSON.

  • Jika Anda mengonfigurasi set data OSS, ossfs 2.0 digunakan secara default untuk mengakses data OSS di jalur set data Anda. Anda dapat menentukan alat lain untuk membaca dan menulis data OSS dalam konfigurasi lanjutan. Untuk informasi selengkapnya tentang alat yang tersedia, lihat Contoh konfigurasi lanjutan. Kode berikut menunjukkan konfigurasi default.

    {"mountOssType":"ossfs", "upload_concurrency":64} 
  • Jika set data yang ditambahkan adalah set data NAS, Anda dapat menentukan konfigurasi untuk mengakses sistem file NAS yang menggunakan protokol NFS (parameter nasOptions). Kode berikut menunjukkan konfigurasi default. Anda juga dapat merujuk ke Memasang sistem file NFS secara manual untuk menyesuaikan nilai parameter.

    Penting
    • Hanya sistem file NAS yang menggunakan protokol NFS yang dapat dipasang.

    • Satu-satunya parameter konfigurasi lanjutan yang didukung untuk NAS adalah nasOptions. Untuk menyesuaikan parameter pemasangan sistem file NAS, atur konfigurasi lanjutan menjadi {"nasOptions":"<ParameterName1=ParameterValue>,<ParameterName2=ParameterValue>,..."}.

    {"nasOptions":"vers=3,nolock,proto=tcp,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport"}

Read-only

Secara default, Anda dapat membaca dan menulis data dalam set data pada node saat ini. Jika set data diatur sebagai read-only untuk node saat ini, Anda tidak dapat menulis data ke folder pemasangan set data dalam kode node tersebut. Jika Anda melakukan operasi tulis dalam kode, kesalahan izin akan dilaporkan.

2. Gunakan set data di node

Bagian ini menggunakan node Shell sebagai contoh. Setelah Anda menyambungkan set data OSS ke node Shell, Anda dapat mengelola data OSS dalam kode node Shell seperti mengelola file lokal. Contoh berikut menunjukkan cara menggunakan alat ossfs 2.0 default untuk mengunggah file file01.txt ke jalur pemasangan /mnt/data/dataset01 dari set data datasets-oss dan menulis data ke file tersebut.

Kode contoh:

echo "Hello World" > /mnt/data/dataset01/file01.txt
ls -tl /mnt/data/dataset01

image

Catatan

Jika pesan kesalahan Job Submit Failed! submit job failed directly! Caused by: execute task failed, exception: [103:ILLEGAL_TASK]:Task with dataset need 0.5cu at least! dilaporkan selama waktu proses, hal ini menunjukkan bahwa CU yang dialokasikan ke tugas tidak mencukupi. Sesuaikan CU kelompok sumber daya dan alokasikan minimal 0,5 CU.

3. Verifikasi bahwa data telah ditulis di OSS

Setelah kode di 2. Gunakan set data di node dieksekusi, file tersebut secara otomatis ditulis ke jalur penyimpanan OSS yang sesuai dengan jalur pemasangan set data. Anda dapat menavigasi ke jalur penyimpanan OSS untuk melihat file yang ditulis dari node DataWorks. Dalam contoh ini, jalur penyimpanan yang sesuai dengan jalur pemasangan /mnt/data/dataset01 dari set data OSS datasets-oss adalah oss://datasets-oss.oss-cn-shanghai.aliyuncs.com/dataset01/v1/. Gambar berikut menunjukkan contoh data yang ditulis ke jalur OSS.

image

Gunakan set data di lingkungan pengembangan pribadi

Setelah Anda mendefinisikan set data, Anda dapat memasangnya ke instans lingkungan pengembangan pribadi saat membuat atau memodifikasi instans tersebut. Selanjutnya, Anda dapat langsung membaca data dari set data tersebut di terminal atau Notebook di folder pribadi Anda.

Persiapan: Buat set data

  1. Buat bucket atau buat sistem file.

  2. Buat set data.

    Contoh ini menggunakan set data NAS. Sebuah set data NAS bernama datasets-nas dibuat di wilayah Tiongkok (Shanghai). Jalur NAS nas://****.cn-shanghai.nas.aliyuncs.com/mnt/dataset02/v1/ dipasang ke /mnt/data/dataset02.

1. Konfigurasikan set data untuk lingkungan pengembangan pribadi

Buat instans lingkungan pengembangan pribadi dan pilih set data NAS datasets-nas yang telah Anda buat.

image

Parameter

Deskripsi

Dataset

Konfigurasikan set data yang dapat diakses dalam kode node saat ini. Pastikan VPC yang dipilih untuk instans lingkungan pengembangan pribadi dapat terhubung ke titik pemasangan NAS.

Dalam contoh ini, pilih set data NAS datasets-nas yang dibuat di DataWorks dan pilih versi V1.

Mount Path

Konfigurasikan jalur untuk mengakses set data dalam kode instans lingkungan pengembangan pribadi.

Dalam contoh ini, jalur set data NAS nas://****.cn-shanghai.nas.aliyuncs.com/mnt/dataset02/v1/ dipasang ke /mnt/data/dataset02.

Penting

Jalur pemasangan tidak boleh sama jika Anda memasang beberapa set data ke instans lingkungan pengembangan pribadi yang sama.

Advanced Configuration

Opsional. Anda dapat menentukan konfigurasi untuk mengakses sistem file NAS yang menggunakan protokol NFS (parameter nasOptions) dalam format JSON. Kode berikut menunjukkan konfigurasi default. Anda juga dapat merujuk ke Memasang sistem file NFS secara manual untuk menyesuaikan nilai parameter.

Penting
  • Hanya sistem file NAS yang menggunakan protokol NFS yang dapat dipasang.

  • Satu-satunya parameter konfigurasi lanjutan yang didukung untuk NAS adalah nasOptions. Untuk menyesuaikan parameter pemasangan sistem file NAS, atur konfigurasi lanjutan menjadi {"nasOptions":"<ParameterName1=ParameterValue>,<ParameterName2=ParameterValue>,..."}.

{"nasOptions":"vers=3,nolock,proto=tcp,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport"}

Read-only

Secara default, Anda dapat membaca dan menulis data dalam set data pada node saat ini. Jika set data diatur sebagai read-only untuk node saat ini, Anda tidak dapat menulis data ke folder pemasangan set data dalam kode node tersebut. Jika Anda melakukan operasi tulis dalam kode, kesalahan izin akan dilaporkan.

2. Baca set data di Notebook

  1. Di bagian atas halaman Data Studio, beralihlah ke instans lingkungan pengembangan pribadi dan buat Notebook.

  2. Konfigurasikan konten berikut di Notebook.

    1. Tulis data ke jalur tertentu dalam set data.

      import os
      
      # Definisikan jalur tujuan dan nama file.
      file_path = "/mnt/data/dataset02/file02.txt"
      
      # Pastikan folder tersebut ada. Jika folder tidak ada, buatlah.
      os.makedirs(os.path.dirname(file_path),exist_ok=True)
      
      # Tulis kontennya.
      content = "Hello World!"
      try:
          with open(file_path, "w", encoding="utf-8") as file:
              file.write(content)
          print(f"File berhasil ditulis ke: {file_path}")
      except Exception as e:
          print(f"Gagal menulis: {str(e)}")
    2. Baca data dari jalur tertentu dalam set data.

      file_path = "/mnt/data/dataset02/file02.txt"
      with open(file_path, "r") as file:
          content = file.read()
      content
  3. Jalankan kedua blok kode Python tersebut secara terpisah.

    Catatan

    Selama waktu proses, Anda harus mengonfirmasi kernel Python. Contoh ini menggunakan Python 3.11.9.

    image

3. Konfigurasikan penjadwalan

Di sisi kanan node Notebook, klik Scheduling Settings dan tambahkan opsi terkait set data. Konfigurasi parameter harus sama dengan parameter set data yang Anda tetapkan saat membuat instans lingkungan pengembang pribadi.

Contoh konfigurasi lanjutan

Saat mengonfigurasi set data, Anda dapat mengatur konfigurasi lanjutan dalam format JSON:

Berikut beberapa contoh konfigurasi:

Gunakan ossfs 2.0 untuk memasang dan mengakses OSS

ossfs 2.0 adalah klien yang dirancang untuk akses berkinerja tinggi ke OSS melalui pemasangan. Alat ini menyediakan kemampuan baca dan tulis berurutan yang sangat baik serta dapat memanfaatkan bandwidth tinggi OSS secara optimal. Alat ini cocok untuk skenario yang memerlukan kinerja baca dan tulis berurutan tinggi, seperti pelatihan AI dan aplikasi komputasi-intensif seperti pemrosesan data. Skenario beban kerja ini terutama melibatkan pembacaan berurutan dan acak, penulisan berurutan (append-only), dan tidak memerlukan semantik POSIX lengkap.

Di Dataset > Advanced Configuration, Anda dapat mengatur parameter lanjutan. Pisahkan beberapa opsi dengan koma (,). Untuk informasi selengkapnya tentang parameter lanjutan dan opsi lainnya, lihat opsi pemasangan ossfs 2.0. Berikut adalah contoh skenario umum:

  • Sumber data tidak berubah selama tugas: Jika tidak ada file yang akan dibaca yang dimodifikasi selama proses pembacaan, Anda dapat mengonfigurasi waktu cache yang panjang untuk mengurangi jumlah permintaan metadata. Skenario khas adalah membaca sejumlah file yang sudah ada dan menghasilkan sejumlah file baru setelah pemrosesan.

    {"mountOssType":"ossfs", "attr_timeout": "7200"}
  • Baca dan tulis cepat: Gunakan waktu cache metadata yang singkat untuk menyeimbangkan efisiensi cache dan ketepatan waktu data file.

    {"mountOssType":"ossfs", "attr_timeout": "3", "negative_timeout":"0"}
  • Konsistensi baca dan tulis untuk tugas terdistribusi: Secara default, ossfs memperbarui data file berdasarkan cache metadata. Gunakan konfigurasi berikut untuk mencapai tampilan yang disinkronkan di beberapa node.

    { "mountOssType":"ossfs","negative_timeout": "0", "close_to_open":"false"}
  • Terlalu banyak file dibuka secara bersamaan, menyebabkan kesalahan OOM: Jika konkurensi tugas tinggi dan banyak file dibuka secara bersamaan, masalah kehabisan memori (OOM) dapat terjadi. Anda dapat menggunakan konfigurasi berikut untuk mengurangi tekanan memori.

    {"mountOssType":"ossfs","readdirplus": "false", "inode_cache_eviction_threshold":"300000"}

Gunakan ossfs 1.0 untuk memasang dan mengakses OSS

ossfs 1.0 memungkinkan Anda memasang bucket OSS sebagai sistem file lokal pada sistem Linux. Dibandingkan dengan ossfs 2.0, ossfs 1.0 menyediakan dukungan operasi file yang lebih komprehensif. Jika Anda mengalami masalah ketidakcocokan operasi file setelah memasang direktori dengan ossfs 2.0, Anda dapat mencoba menggunakan ossfs 1.0.

Untuk informasi selengkapnya tentang parameter yang diperlukan untuk pemasangan dengan ossfs 1.0, lihat opsi pemasangan ossfs 1.0.

Gunakan JindoFuse untuk memasang dan mengakses OSS

Anda dapat menggunakan komponen JindoFuse untuk memasang set data OSS ke jalur tertentu dalam kontainer. Alat ini cocok untuk skenario berikut:

  • Anda ingin membaca data OSS seolah-olah itu adalah set data lokal, atau set data tersebut kecil dan dapat memanfaatkan cache lokal JindoFuse secara efektif untuk percepatan.

  • Anda perlu menulis data ke OSS.

Di Dataset > Advanced Configuration, Anda dapat mengatur parameter lanjutan. Gunakan koma (,) untuk memisahkan beberapa konfigurasi. Berikut adalah contoh konfigurasi. Untuk deskripsi parameter dan konfigurasi parameter lainnya, lihat Panduan Pengguna JindoFuse dan Menggunakan JindoFuse untuk memasang dan mengakses data.

Catatan

Saat ini, DataWorks hanya mendukung parameter dalam format key=value.

{ 
  "mountOssType":"jindofuse",
  "fs.oss.download.thread.concurrency": "2 × jumlah core CPU",
  "fs.oss.upload.thread.concurrency": "2 × jumlah core CPU",
  "attr_timeout": 3,
  "entry_timeout": 0,
  "negative_timeout": 0
}

Gunakan set data NAS

Jika set data yang Anda tambahkan adalah set data NAS, Anda dapat menentukan konfigurasi untuk mengakses sistem file NAS yang menggunakan protokol NFS (parameter nasOptions). Kode berikut menunjukkan konfigurasi default. Untuk menyesuaikan nilai parameter, lihat Memasang sistem file NFS secara manual.

Penting
  • Hanya sistem file NAS yang menggunakan protokol NFS yang dapat dipasang.

  • Satu-satunya parameter konfigurasi lanjutan yang didukung untuk NAS adalah nasOptions. Untuk menyesuaikan parameter pemasangan sistem file NAS, atur konfigurasi lanjutan menjadi {"nasOptions":"<ParameterName1=ParameterValue>,<ParameterName2=ParameterValue>,..."}.

{"nasOptions":"vers=3,nolock,proto=tcp,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport"}

Referensi