Set data DataWorks memungkinkan Anda mendaftarkan dan membuat versi data tidak terstruktur—seperti gambar, dokumen, audio, dan file lainnya—yang disimpan di OSS atau NAS. Setelah didaftarkan, data tersebut dipasang ke lingkungan pengembangan DataWorks Anda dan dapat diakses dari node Shell, node Python, notebook, serta lingkungan pengembangan pribadi Anda.
Kasus penggunaan
Data pelatihan ML: Daftarkan kumpulan gambar atau dokumen yang disimpan di OSS, buat versinya seiring perkembangan set pelatihan, lalu pasang langsung ke dalam notebook untuk pengembangan model.
Zona pendaratan ETL: Arahkan set data ke folder NAS tempat sistem hulu menempatkan file mentah, lalu proses file-file tersebut di node Shell atau Python.
Pipa data tidak terstruktur: Akses file audio, video, atau PDF melalui jalur pemasangan yang konsisten di berbagai tugas DataWorks.
Eksperimen yang dapat direproduksi: Buat versi set data untuk mengabadikan snapshot pada titik waktu tertentu. Jika versi baru menyebabkan masalah, kembalikan ke versi sebelumnya tanpa perlu membangun ulang pipa data.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Ruang kerja DataWorks
Bucket OSS atau sistem file NAS di Wilayah yang sama dengan ruang kerja Anda
(OSS) izin bucket OSS yang diperlukan
(NAS) titik pemasangan yang dikonfigurasi dengan konektivitas VPC ke kelompok sumber daya DataWorks Anda
Perbandingan jenis penyimpanan
Set data mendukung dua backend penyimpanan. Pilih berdasarkan pola akses dan infrastruktur yang sudah ada.
| Dimensi | OSS | NAS |
|---|---|---|
| Jenis penyimpanan | Penyimpanan objek (namespace datar) | Sistem file yang kompatibel POSIX |
| Paling cocok untuk | Koleksi besar file yang tidak berubah (gambar, model, arsip) | Beban kerja yang memerlukan akses baca/tulis acak atau berbagi file |
| Opsi sistem file | T/A | NAS tujuan umum atau NAS Extreme |
| Jalur pemasangan default | /mnt/data/ | /mnt/data/ |
| Persyaratan jaringan | Izin bucket OSS | Konektivitas VPC antara titik pemasangan NAS dan kelompok sumber daya |
Catatan: Konsol juga mendukung Data Lake Formation (DLF) sebagai jenis penyimpanan. Untuk informasi selengkapnya, lihat Konsol DataWorks.
Buat set data
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan.
Di panel navigasi kiri, pilih Data Governance > Data Map. Di halaman yang muncul, klik Go to Data Map.
Di panel navigasi kiri halaman Peta Data, klik Data Catalog (
). Di Directory List, klik DataSet.Temukan ruang kerja tempat Anda akan membuat set data dan klik namanya. Daftar set data untuk ruang kerja tersebut akan muncul.
Klik Create Dataset dan konfigurasikan pengaturan sesuai jenis penyimpanan yang dipilih.
Klik Save untuk membuat set data.
Konfigurasi set data OSS
Dataset configuration:
| Pengaturan | Deskripsi |
|---|---|
| Storage type | OSS |
| Content type | (Opsional) Jenis data yang didaftarkan. Nilai default-nya adalah Common. |
Import configuration:
| Pengaturan | Deskripsi |
|---|---|
| OSS Path | Jalur folder OSS yang akan dipasang. Pastikan Anda memiliki izin bucket OSS yang diperlukan. |
| Default mount path | Jalur yang digunakan untuk mengakses data di DataWorks. Nilai default-nya adalah /mnt/data/. Ubah nilai ini jika diperlukan. |
Konfigurasi set data NAS
Dataset configuration:
| Pengaturan | Deskripsi |
|---|---|
| Storage type | General-purpose NAS atau Extreme NAS |
| Content type | (Opsional) Jenis data yang didaftarkan. Nilai default-nya adalah Common. |
Import configuration:
| Setting | Description |
|---|---|
| File system | Pilih file system NAS yang dibuat di wilayah saat ini di bawah Akun Alibaba Cloud Anda. |
| File system mount target | Pilih mount target untuk mengakses file system NAS. VPC dari mount target harus terhubung ke VPC dari kelompok sumber daya. Gunakan VPC yang sama untuk keduanya guna memastikan konektivitas, atau lihat Network connectivity solutions untuk skenario cross-VPC. |
| File system path | Path folder NAS yang akan dipasang. Nilai default-nya adalah direktori root /. Path ini harus ada di file system NAS; jika tidak, dataset akan gagal saat digunakan. |
| Default mount path | Path yang digunakan untuk mengakses data NAS dari DataWorks. Nilai default-nya adalah /mnt/data/. Ubah nilai ini jika diperlukan. |
Kelola set data
Untuk mengelola set data yang sudah ada, navigasikan ke Data Catalog > DataSet, pilih ruang kerja, lalu klik Details di kolom Actions untuk set data yang dituju.
Halaman detail set data menampilkan bagian Attribute Information dan Dataset Version.
Buat versi
Klik Create Version di pojok kanan atas. Saat membuat versi baru, sesuaikan konfigurasi OSS Path atau sistem file NAS dan atur Default Mount Path.
Pembuatan versi mengabadikan snapshot konfigurasi set data pada titik waktu tertentu. Fitur ini mendukung:
Reproducibility: Tetapkan versi tertentu ke pekerjaan pelatihan agar hasil tetap konsisten.
Rollback: Kembalikan ke versi sebelumnya jika versi saat ini menyebabkan masalah kualitas data.
Auditability: Lacak versi mana yang digunakan dalam setiap eksekusi pipa.
Lihat data set data (hanya OSS)
Klik tab View Data, lalu klik View in OSS untuk membuka jalur penyimpanan versi yang dipilih di Konsol OSS.
Hapus versi
Di bagian Dataset Version, pilih versi dari menu tarik-turun, lalu klik Delete.
Hapus set data
Klik Delete di pojok kanan atas halaman detail set data.
Menghapus set data atau versi set data tidak menghapus file aslinya di OSS atau NAS. Namun, set data atau versi yang dihapus tidak dapat dipulihkan melalui fitur set data DataWorks. Lakukan dengan hati-hati.
Gunakan set data
Setelah membuat set data, akses melalui alat pengembangan DataWorks berikut melalui jalur pemasangan yang dikonfigurasi (default: /mnt/data/):
Untuk petunjuk lengkap, lihat Use a dataset.
Batasan
Fitur set data saat ini berada dalam tahap beta. Fitur akhir dan stabilitasnya dapat berubah.
Penagihan
Fitur set data sendiri tidak dikenai biaya. Namun, penyimpanan yang mendasarinya dikenai biaya:
OSS: Biaya penyimpanan dan akses jaringan. Lihat penagihan OSS.
NAS: Biaya penyimpanan dan akses jaringan. Lihat penagihan NAS.