Sebelum memproses data atau melatih model, Anda perlu menyiapkan dataset. Platform for AI (PAI) Asset Management menyediakan fitur manajemen dataset yang memungkinkan Anda membuat dan mengelola dataset dalam beberapa versi. Manajemen versi dataset mendukung reproduksi eksperimen yang tepat, pelacakan versi data, pencatatan garis keturunan data, serta transisi mulus ke versi sebelumnya jika terjadi masalah, sehingga memastikan operasi bisnis tanpa gangguan.
Ikhtisar
Fitur manajemen dataset mendukung pengelolaan komprehensif dataset dasar dan dataset berlabel. Dataset dasar biasanya terdiri dari sejumlah besar data mentah dan digunakan untuk melatih model awal guna mengidentifikasi fitur dan pola umum. Dataset berlabel diperkaya dengan label eksplisit melalui anotasi manual, digunakan untuk penyempurnaan model dan evaluasi untuk meningkatkan kinerja pada tugas tertentu.
Item | Dataset dasar | Dataset berlabel |
Definisi | Data mentah tanpa label | Data yang diberi label secara manual |
Pemrosesan data | Pembersihan data, penghapusan duplikat, dan lainnya | Pemberian label data, validasi, dan lainnya |
Skenario aplikasi |
|
|
Pergi ke halaman Datasets page
Masuk ke Konsol PAI.
Di pojok kiri atas, pilih wilayah.
Di bilah navigasi sisi kiri, pilih Workspaces, lalu klik nama workspace yang diinginkan.
Di bilah navigasi sisi kiri, pilih AI Asset Management > Datasets.
Buat dataset dasar
Pada tab Custom Datasets > Basic Datasets, klik Create Dataset.
Storage Type mendukung berbagai opsi penyimpanan, termasuk Object Storage Service (OSS), penyimpanan file (NAS Tujuan Umum, NAS Ekstrem, CPFS, dan CPFS untuk Lingjun), serta MaxCompute.

Konfigurasikan parameter utama berikut:
Tipe Penyimpanan adalah OSS
Parameter | Deskripsi |
Tipe | Tipe data. Tipe yang didukung mencakup gambar, teks, audio, video, tabel, dan umum. Setelah memilih tipe tertentu, sistem akan memfilter dataset untuk skenario pelabelan selanjutnya. |
Pemilik | Pemilik dataset. Hanya administrator workspace yang dapat mengatur parameter ini. |
Format Impor/OSS Path |
|
Default Mount Path | Jalur mount default untuk data, yang biasanya digunakan di DSW dan DLC:
|
Aktifkan Akselerasi Versi | Ketika Import Format disetel ke Folder, opsi untuk mengaktifkan akselerasi versi dataset menjadi tersedia. Konfigurasikan parameter utama berikut:
|
Tipe Penyimpanan adalah penyimpanan file
Parameter | Deskripsi |
Tipe | Tipe data. Tipe yang didukung mencakup gambar, teks, audio, video, tabel, dan umum. Setelah memilih tipe tertentu, sistem akan memfilter dataset untuk skenario pelabelan selanjutnya. |
Pemilik | Pemilik dataset. Hanya administrator workspace yang dapat mengatur parameter ini. |
Pilih Sistem File | Pilih sistem file yang sesuai dengan Storage Type. |
Target Mount | Pilih target mount di bawah sistem file. |
Jalur Sistem File | Pilih jalur yang ada dalam sistem file, seperti |
Default Mount Path | Jalur mount default untuk data, yang biasanya digunakan di DSW dan DLC:
|
Aktifkan Akselerasi Versi | Ketika Storage Type disetel ke General-purpose NAS, Extreme NAS, dan Cloud Parallel File Storage (CPFS), opsi untuk mengaktifkan akselerasi versi dataset menjadi tersedia. Konfigurasikan parameter utama berikut:
|
Tipe Penyimpanan adalah MaxCompute
Parameter | Deskripsi |
Tipe | Hanya mendukung Table. |
Pemilik | Pemilik dataset. Hanya administrator workspace yang dapat mengatur parameter ini. |
Default Mount Path | Jalur mount default untuk data, yang biasanya digunakan di DSW dan DLC:
|
Aktifkan Akselerasi Versi | Mengaktifkan akselerasi versi dataset. Konfigurasikan parameter utama berikut:
|
Buat versi dataset dasar
Pada tab Custom Dataset > Basic Dataset, klik Create Version di kolom Actions untuk dataset yang diinginkan.

Catat parameter utama berikut:
Name, Storage Type, dan Type sama dengan versi V1 dan tidak dapat diubah.
Sistem secara otomatis menghasilkan versi dataset dan tidak dapat diubah.
Untuk parameter utama lainnya, lihat Buat Dataset Dasar.
Lihat dataset publik
Sistem menyediakan berbagai dataset publik (seperti MMLU, CMMLU, dan GSM8K). Klik nama dataset pada tab Public Dataset untuk melihat informasi dasar dataset tersebut.

Kelola dataset
Untuk dataset dasar, Anda dapat melihat versi, buat versi baru, atur sebagai publik, dan hapus. Untuk dataset berlabel, Anda dapat melihat data, membuatnya publik, dan menghapusnya.

Perhatikan hal berikut:
Untuk dataset dengan Visibility disetel ke Visible Only to the Dataset Owner, klik Set Dataset to Public untuk berbagi dataset dalam workspace, memungkinkan semua anggota workspace untuk melihatnya. Catatan bahwa setelah dataset dibuat publik, statusnya tidak dapat dikembalikan ke sebelumnya. Lanjutkan dengan hati-hati.
Jika Anda mengalami masalah hak akses saat melihat data dataset sebagai pengguna RAM, otorisasi pengguna RAM.
Menghapus dataset dapat mengganggu tugas yang ada. Setelah Anda menghapus dataset, dataset tersebut tidak dapat dipulihkan. Lanjutkan dengan hati-hati.