全部产品
Search
文档中心

Platform For AI:Buat dan kelola dataset

更新时间:Jul 06, 2025

Sebelum memproses data atau melatih model, Anda perlu menyiapkan dataset. Platform for AI (PAI) Asset Management menyediakan fitur manajemen dataset yang memungkinkan Anda membuat dan mengelola dataset dalam beberapa versi. Manajemen versi dataset mendukung reproduksi eksperimen yang tepat, pelacakan versi data, pencatatan garis keturunan data, serta transisi mulus ke versi sebelumnya jika terjadi masalah, sehingga memastikan operasi bisnis tanpa gangguan.

Ikhtisar

Fitur manajemen dataset mendukung pengelolaan komprehensif dataset dasar dan dataset berlabel. Dataset dasar biasanya terdiri dari sejumlah besar data mentah dan digunakan untuk melatih model awal guna mengidentifikasi fitur dan pola umum. Dataset berlabel diperkaya dengan label eksplisit melalui anotasi manual, digunakan untuk penyempurnaan model dan evaluasi untuk meningkatkan kinerja pada tugas tertentu.

Item

Dataset dasar

Dataset berlabel

Definisi

Data mentah tanpa label

Data yang diberi label secara manual

Pemrosesan data

Pembersihan data, penghapusan duplikat, dan lainnya

Pemberian label data, validasi, dan lainnya

Skenario aplikasi

  • Pembelajaran tanpa pengawasan

  • Model pra-latih untuk ekstraksi fitur umum

  • Pembelajaran dengan pengawasan, evaluasi model

  • Penyempurnaan model untuk performa tugas spesifik

Pergi ke halaman Datasets page

  1. Masuk ke Konsol PAI.

  2. Di pojok kiri atas, pilih wilayah.

  3. Di bilah navigasi sisi kiri, pilih Workspaces, lalu klik nama workspace yang diinginkan.

  4. Di bilah navigasi sisi kiri, pilih AI Asset Management > Datasets.

Buat dataset dasar

Pada tab Custom Datasets > Basic Datasets, klik Create Dataset.

Storage Type mendukung berbagai opsi penyimpanan, termasuk Object Storage Service (OSS), penyimpanan file (NAS Tujuan Umum, NAS Ekstrem, CPFS, dan CPFS untuk Lingjun), serta MaxCompute.

image

Konfigurasikan parameter utama berikut:

Tipe Penyimpanan adalah OSS

Parameter

Deskripsi

Tipe

Tipe data. Tipe yang didukung mencakup gambar, teks, audio, video, tabel, dan umum. Setelah memilih tipe tertentu, sistem akan memfilter dataset untuk skenario pelabelan selanjutnya.

Pemilik

Pemilik dataset. Hanya administrator workspace yang dapat mengatur parameter ini.

Format Impor/OSS Path

  • Ketika Import Format disetel ke File, jalur OSS harus berupa file. Dataset yang dibuat dikaitkan dengan file yang ditentukan ini. Ini biasanya digunakan untuk membuat dataset iTAG.

  • Ketika Import Format disetel ke Folder, jalur OSS harus berupa jalur folder. Jalur ini dapat dipasang dalam wadah. Ini biasanya digunakan untuk dataset dalam layanan seperti DSW, DLC, dan EAS.

Default Mount Path

Jalur mount default untuk data, yang biasanya digunakan di DSW dan DLC:

  • Di DSW, Anda dapat memasang sistem file yang telah dibuat ke jalur ini saat membuat instance.

  • Di DLC, sistem mencari file di jalur ini saat menjalankan kode, seperti python /root/data/file.py.

Aktifkan Akselerasi Versi

Ketika Import Format disetel ke Folder, opsi untuk mengaktifkan akselerasi versi dataset menjadi tersedia. Konfigurasikan parameter utama berikut:

  • Maximum Capacity: Kapasitas slot, yang harus setidaknya sama dengan ukuran dataset. Sesuaikan berdasarkan dataset yang membutuhkan akselerasi.

  • Accelerated Mount Target: Secara default, target mount internal digunakan. Anda dapat menggunakan target mount yang ada atau membuat yang baru.

    Catatan

    Saat menggunakan Sumber daya komputasi cerdas Lingjun, jika Accelerated Mount Target disetel ke Create Mount Target, Mount Target Type harus VPC, dan VPC serta vSwitch yang dipilih harus sesuai dengan Sumber daya komputasi cerdas Lingjun.

  • Accelerated Version Default Mount Path: Jalur mount default untuk versi dataset.

Tipe Penyimpanan adalah penyimpanan file

Parameter

Deskripsi

Tipe

Tipe data. Tipe yang didukung mencakup gambar, teks, audio, video, tabel, dan umum. Setelah memilih tipe tertentu, sistem akan memfilter dataset untuk skenario pelabelan selanjutnya.

Pemilik

Pemilik dataset. Hanya administrator workspace yang dapat mengatur parameter ini.

Pilih Sistem File

Pilih sistem file yang sesuai dengan Storage Type.

Target Mount

Pilih target mount di bawah sistem file.

Jalur Sistem File

Pilih jalur yang ada dalam sistem file, seperti /.

Default Mount Path

Jalur mount default untuk data, yang biasanya digunakan di DSW dan DLC:

  • Di DSW, Anda dapat memasang sistem file yang telah dibuat ke jalur ini saat membuat instance.

  • Di DLC, sistem mencari file di jalur ini saat menjalankan kode, seperti python /root/data/file.py.

Aktifkan Akselerasi Versi

Ketika Storage Type disetel ke General-purpose NAS, Extreme NAS, dan Cloud Parallel File Storage (CPFS), opsi untuk mengaktifkan akselerasi versi dataset menjadi tersedia. Konfigurasikan parameter utama berikut:

  • Maximum Capacity: Kapasitas slot, yang harus setidaknya sama dengan ukuran dataset. Sesuaikan berdasarkan dataset yang membutuhkan akselerasi.

  • Accelerated Version Default Mount Path: Jalur mount default untuk versi dataset.

Tipe Penyimpanan adalah MaxCompute

Parameter

Deskripsi

Tipe

Hanya mendukung Table.

Pemilik

Pemilik dataset. Hanya administrator workspace yang dapat mengatur parameter ini.

Default Mount Path

Jalur mount default untuk data, yang biasanya digunakan di DSW dan DLC:

  • Di DSW, Anda dapat memasang sistem file yang telah dibuat ke jalur ini saat membuat instance.

  • Di DLC, sistem mencari file di jalur ini saat menjalankan kode, seperti python /root/data/file.py.

Aktifkan Akselerasi Versi

Mengaktifkan akselerasi versi dataset. Konfigurasikan parameter utama berikut:

  • Initial configurations: Konfigurasikan kode inisialisasi dan klik Test.

  • Accelerated Mount Target: Secara default, target mount internal digunakan. Anda dapat menggunakan target mount yang ada atau membuat yang baru.

    Catatan

    Saat menggunakan Sumber daya komputasi cerdas Lingjun, jika Accelerated Mount Target disetel ke Create Mount Target, Mount Target Type harus VPC, dan VPC serta vSwitch yang dipilih harus sesuai dengan Sumber daya komputasi cerdas Lingjun.

  • Accelerated Version Default Mount Path: Jalur mount default untuk versi dataset.

Buat versi dataset dasar

Pada tab Custom Dataset > Basic Dataset, klik Create Version di kolom Actions untuk dataset yang diinginkan.

image

Catat parameter utama berikut:

  • Name, Storage Type, dan Type sama dengan versi V1 dan tidak dapat diubah.

  • Sistem secara otomatis menghasilkan versi dataset dan tidak dapat diubah.

  • Untuk parameter utama lainnya, lihat Buat Dataset Dasar.

Lihat dataset publik

Sistem menyediakan berbagai dataset publik (seperti MMLU, CMMLU, dan GSM8K). Klik nama dataset pada tab Public Dataset untuk melihat informasi dasar dataset tersebut.

image

Kelola dataset

Untuk dataset dasar, Anda dapat melihat versi, buat versi baru, atur sebagai publik, dan hapus. Untuk dataset berlabel, Anda dapat melihat data, membuatnya publik, dan menghapusnya.

image

Perhatikan hal berikut:

  • Untuk dataset dengan Visibility disetel ke Visible Only to the Dataset Owner, klik Set Dataset to Public untuk berbagi dataset dalam workspace, memungkinkan semua anggota workspace untuk melihatnya. Catatan bahwa setelah dataset dibuat publik, statusnya tidak dapat dikembalikan ke sebelumnya. Lanjutkan dengan hati-hati.

  • Jika Anda mengalami masalah hak akses saat melihat data dataset sebagai pengguna RAM, otorisasi pengguna RAM.

  • Menghapus dataset dapat mengganggu tugas yang ada. Setelah Anda menghapus dataset, dataset tersebut tidak dapat dipulihkan. Lanjutkan dengan hati-hati.