Untuk memproses data atau melatih model, Anda harus terlebih dahulu menyiapkan dataset. AI Asset Management menyediakan fitur-fitur canggih untuk membuat dan mengelola dataset. Manajemen versinya memungkinkan Anda mereproduksi eksperimen secara akurat, melacak versi data, dan mencatat alur data. Jika versi baru menyebabkan masalah, Anda dapat segera melakukan rollback ke versi sebelumnya guna memastikan kelangsungan bisnis.
Ikhtisar
AI Asset Management memungkinkan Anda mengelola dataset dasar dan dataset berlabel. Dataset dasar biasanya berisi volume besar informasi mentah dan terutama digunakan untuk pre-train model guna menangkap fitur dan pola yang luas. Dataset berlabel berisi data yang telah dianotasi oleh manusia dengan label spesifik dan terutama digunakan untuk penyempurnaan model dan evaluasi model guna meningkatkan performa model pada tugas-tugas tertentu.
Item | Dataset dasar | Dataset berlabel |
Definisi | Data mentah tanpa label. | Data yang dianotasi oleh manusia |
Pemrosesan data | Pembersihan data, deduplikasi, dan lainnya. | Pelabelan data, validasi, dan lainnya |
Skenario |
|
|
Buka halaman Datasets
Masuk ke Konsol PAI.
Di pojok kiri atas, pilih wilayah tempat ruang kerja Anda berada.
Di panel navigasi sebelah kiri, pilih Workspaces. Klik nama ruang kerja yang ingin Anda buka.
Di panel navigasi sebelah kiri, pilih AI Asset Management > Datasets.
Buat dataset dasar
Pada tab Custom Datasets, klik Create Dataset dan pilih Basic untuk Data Type. Anda dapat membuat dataset dari Object Storage Service (OSS) atau File Storage (General-purpose NAS, Extreme NAS, CPFS, dan AI-CPFS).
Storage type adalah Object Storage Service (OSS)
Parameter | Deskripsi |
Content Type | Pilih tipe data, seperti image, text, audio, video, table, atau general. Menentukan tipe memungkinkan sistem menyaring dataset untuk tugas pelabelan di masa depan. |
Owner | Pilih pemilik dataset. Hanya administrator ruang kerja yang dapat mengonfigurasi parameter ini. |
Import Format/OSS Path | |
Default Mount Path | Path default untuk memasang data. Ini sering digunakan di DSW dan DLC:
|
Enable Version Acceleration | Anda dapat mengaktifkan dataset version acceleration saat Anda mengatur Import Format ke Folder. Pengaturan utamanya meliputi:
|
Storage type adalah file system
Parameter | Deskripsi |
Content Type | Pilih tipe data, seperti image, text, audio, video, table, atau general. Menentukan tipe memungkinkan sistem menyaring dataset untuk tugas pelabelan di masa depan. |
Owner | Pilih pemilik dataset. Hanya administrator ruang kerja yang dapat mengonfigurasi parameter ini. |
File System | Pilih sistem file yang sesuai dengan Storage Type. |
Mount Target | Konfigurasikan titik pemasangan untuk mengakses sistem file. |
File System Path | Tentukan path ke data Anda di dalam sistem file. Misalnya, |
Default Mount Path | Path default untuk memasang data. Ini sering digunakan di DSW dan DLC:
|
Enable Version Acceleration | Jika Storage Type adalah General-purpose NAS, Extreme NAS, atau CPFS, Anda dapat mengaktifkan dataset version acceleration. Parameter utamanya dijelaskan sebagai berikut:
|
Buat versi dataset dasar
Pada tab Custom Datasets, klik Create Version di kolom Actions untuk dataset target.

Catatan:
Nama dataset, tipe penyimpanan, dan tipe data diwariskan dari versi V1 dan tidak dapat diubah.
Sistem secara otomatis menghasilkan versi dataset, yang bersifat read-only.
Untuk pengaturan parameter lainnya, lihat penjelasan di bagian Buat dataset dasar.
Lihat dataset publik
Sistem menyediakan berbagai dataset publik bawaan, seperti MMLU, CMMLU, dan GSM8K. Pada tab Public Datasets, Anda dapat mengklik nama dataset untuk melihat informasi dasarnya.

Kelola dataset
Untuk dataset kustom, Anda dapat melihat daftar versi, membuat versi baru, mengatur dataset menjadi publik, atau menghapusnya. Untuk dataset berlabel, Anda dapat melihat datanya, mengaturnya menjadi publik, atau menghapusnya.

Catatan:
Untuk dataset yang memiliki Visibility diatur ke Visible only to dataset owner, Anda dapat mengklik Make Dataset Public untuk membagikan dataset dalam ruang kerja. Hal ini memungkinkan semua anggota ruang kerja melihat dataset tersebut. Setelah dijadikan publik, dataset tidak dapat dikembalikan ke status privat. Lakukan dengan hati-hati.
Jika pengguna RAM menerima error access denied saat mencoba melihat data dataset, Anda harus memberikan izin kepada pengguna RAM tersebut.
Menghapus dataset dapat memengaruhi tugas yang sedang berjalan dan bergantung padanya. Penting: Penghapusan dataset bersifat permanen. Lakukan dengan hati-hati.