All Products
Search
Document Center

DataWorks:Kelola set data

Last Updated:Mar 01, 2026

Set data DataWorks memungkinkan Anda mendaftarkan dan membuat versi data tidak terstruktur—seperti gambar, dokumen, audio, dan file lainnya—yang disimpan di OSS atau NAS. Setelah didaftarkan, data tersebut dipasang ke lingkungan pengembangan DataWorks Anda dan dapat diakses dari node Shell, node Python, notebook, serta lingkungan pengembangan pribadi Anda.

Kasus penggunaan

  • Data pelatihan ML: Daftarkan kumpulan gambar atau dokumen yang disimpan di OSS, buat versinya seiring perkembangan set pelatihan, lalu pasang langsung ke dalam notebook untuk pengembangan model.

  • Zona pendaratan ETL: Arahkan set data ke folder NAS tempat sistem hulu menempatkan file mentah, lalu proses file-file tersebut di node Shell atau Python.

  • Pipa data tidak terstruktur: Akses file audio, video, atau PDF melalui jalur pemasangan yang konsisten di berbagai tugas DataWorks.

  • Eksperimen yang dapat direproduksi: Buat versi set data untuk mengabadikan snapshot pada titik waktu tertentu. Jika versi baru menyebabkan masalah, kembalikan ke versi sebelumnya tanpa perlu membangun ulang pipa data.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

  • Ruang kerja DataWorks

  • Bucket OSS atau sistem file NAS di Wilayah yang sama dengan ruang kerja Anda

  • (OSS) izin bucket OSS yang diperlukan

  • (NAS) titik pemasangan yang dikonfigurasi dengan konektivitas VPC ke kelompok sumber daya DataWorks Anda

Perbandingan jenis penyimpanan

Set data mendukung dua backend penyimpanan. Pilih berdasarkan pola akses dan infrastruktur yang sudah ada.

DimensiOSSNAS
Jenis penyimpananPenyimpanan objek (namespace datar)Sistem file yang kompatibel POSIX
Paling cocok untukKoleksi besar file yang tidak berubah (gambar, model, arsip)Beban kerja yang memerlukan akses baca/tulis acak atau berbagi file
Opsi sistem fileT/ANAS tujuan umum atau NAS Extreme
Jalur pemasangan default/mnt/data//mnt/data/
Persyaratan jaringanIzin bucket OSSKonektivitas VPC antara titik pemasangan NAS dan kelompok sumber daya
Catatan: Konsol juga mendukung Data Lake Formation (DLF) sebagai jenis penyimpanan. Untuk informasi selengkapnya, lihat Konsol DataWorks.

Buat set data

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan.

  2. Di panel navigasi kiri, pilih Data Governance > Data Map. Di halaman yang muncul, klik Go to Data Map.

  3. Di panel navigasi kiri halaman Peta Data, klik Data Catalog (image). Di Directory List, klik DataSet.

  4. Temukan ruang kerja tempat Anda akan membuat set data dan klik namanya. Daftar set data untuk ruang kerja tersebut akan muncul.

  5. Klik Create Dataset dan konfigurasikan pengaturan sesuai jenis penyimpanan yang dipilih.

  6. Klik Save untuk membuat set data.

Konfigurasi set data OSS

Dataset configuration:

PengaturanDeskripsi
Storage typeOSS
Content type(Opsional) Jenis data yang didaftarkan. Nilai default-nya adalah Common.

Import configuration:

PengaturanDeskripsi
OSS PathJalur folder OSS yang akan dipasang. Pastikan Anda memiliki izin bucket OSS yang diperlukan.
Default mount pathJalur yang digunakan untuk mengakses data di DataWorks. Nilai default-nya adalah /mnt/data/. Ubah nilai ini jika diperlukan.

Konfigurasi set data NAS

Dataset configuration:

PengaturanDeskripsi
Storage typeGeneral-purpose NAS atau Extreme NAS
Content type(Opsional) Jenis data yang didaftarkan. Nilai default-nya adalah Common.

Import configuration:

SettingDescription
File systemPilih file system NAS yang dibuat di wilayah saat ini di bawah Akun Alibaba Cloud Anda.
File system mount targetPilih mount target untuk mengakses file system NAS. VPC dari mount target harus terhubung ke VPC dari kelompok sumber daya. Gunakan VPC yang sama untuk keduanya guna memastikan konektivitas, atau lihat Network connectivity solutions untuk skenario cross-VPC.
File system pathPath folder NAS yang akan dipasang. Nilai default-nya adalah direktori root /. Path ini harus ada di file system NAS; jika tidak, dataset akan gagal saat digunakan.
Default mount pathPath yang digunakan untuk mengakses data NAS dari DataWorks. Nilai default-nya adalah /mnt/data/. Ubah nilai ini jika diperlukan.

Kelola set data

Untuk mengelola set data yang sudah ada, navigasikan ke Data Catalog > DataSet, pilih ruang kerja, lalu klik Details di kolom Actions untuk set data yang dituju.

Halaman detail set data menampilkan bagian Attribute Information dan Dataset Version.

Buat versi

Klik Create Version di pojok kanan atas. Saat membuat versi baru, sesuaikan konfigurasi OSS Path atau sistem file NAS dan atur Default Mount Path.

Pembuatan versi mengabadikan snapshot konfigurasi set data pada titik waktu tertentu. Fitur ini mendukung:

  • Reproducibility: Tetapkan versi tertentu ke pekerjaan pelatihan agar hasil tetap konsisten.

  • Rollback: Kembalikan ke versi sebelumnya jika versi saat ini menyebabkan masalah kualitas data.

  • Auditability: Lacak versi mana yang digunakan dalam setiap eksekusi pipa.

Lihat data set data (hanya OSS)

Klik tab View Data, lalu klik View in OSS untuk membuka jalur penyimpanan versi yang dipilih di Konsol OSS.

Hapus versi

Di bagian Dataset Version, pilih versi dari menu tarik-turun, lalu klik Delete.

Hapus set data

Klik Delete di pojok kanan atas halaman detail set data.

Penting

Menghapus set data atau versi set data tidak menghapus file aslinya di OSS atau NAS. Namun, set data atau versi yang dihapus tidak dapat dipulihkan melalui fitur set data DataWorks. Lakukan dengan hati-hati.

Gunakan set data

Setelah membuat set data, akses melalui alat pengembangan DataWorks berikut melalui jalur pemasangan yang dikonfigurasi (default: /mnt/data/):

Untuk petunjuk lengkap, lihat Use a dataset.

Batasan

Fitur set data saat ini berada dalam tahap beta. Fitur akhir dan stabilitasnya dapat berubah.

Penagihan

Fitur set data sendiri tidak dikenai biaya. Namun, penyimpanan yang mendasarinya dikenai biaya: