全部产品
Search
文档中心

Platform For AI:Buat dan kelola dataset

更新时间:Dec 26, 2025

Untuk memproses data atau melatih model, Anda harus terlebih dahulu menyiapkan dataset. AI Asset Management menyediakan fitur-fitur canggih untuk membuat dan mengelola dataset. Manajemen versinya memungkinkan Anda mereproduksi eksperimen secara akurat, melacak versi data, dan mencatat alur data. Jika versi baru menyebabkan masalah, Anda dapat segera melakukan rollback ke versi sebelumnya guna memastikan kelangsungan bisnis.

Ikhtisar

AI Asset Management memungkinkan Anda mengelola dataset dasar dan dataset berlabel. Dataset dasar biasanya berisi volume besar informasi mentah dan terutama digunakan untuk pre-train model guna menangkap fitur dan pola yang luas. Dataset berlabel berisi data yang telah dianotasi oleh manusia dengan label spesifik dan terutama digunakan untuk penyempurnaan model dan evaluasi model guna meningkatkan performa model pada tugas-tugas tertentu.

Item

Dataset dasar

Dataset berlabel

Definisi

Data mentah tanpa label.

Data yang dianotasi oleh manusia

Pemrosesan data

Pembersihan data, deduplikasi, dan lainnya.

Pelabelan data, validasi, dan lainnya

Skenario

  • Pembelajaran tanpa pengawasan

  • Pre-training model untuk menangkap fitur yang luas

  • Supervised Learning dan evaluasi model

  • Menyempurnakan model untuk meningkatkan performa pada tugas tertentu

Buka halaman Datasets

  1. Masuk ke Konsol PAI.

  2. Di pojok kiri atas, pilih wilayah tempat ruang kerja Anda berada.

  3. Di panel navigasi sebelah kiri, pilih Workspaces. Klik nama ruang kerja yang ingin Anda buka.

  4. Di panel navigasi sebelah kiri, pilih AI Asset Management > Datasets.

Buat dataset dasar

Pada tab Custom Datasets, klik Create Dataset dan pilih Basic untuk Data Type. Anda dapat membuat dataset dari Object Storage Service (OSS) atau File Storage (General-purpose NAS, Extreme NAS, CPFS, dan AI-CPFS).

Storage type adalah Object Storage Service (OSS)

Parameter

Deskripsi

Content Type

Pilih tipe data, seperti image, text, audio, video, table, atau general. Menentukan tipe memungkinkan sistem menyaring dataset untuk tugas pelabelan di masa depan.

Owner

Pilih pemilik dataset. Hanya administrator ruang kerja yang dapat mengonfigurasi parameter ini.

Import Format/OSS Path

  • File: Tentukan path ke satu file di OSS. Ini umumnya digunakan untuk membuat dataset untuk iTAG.

  • Folder: Tentukan path folder untuk OSS Path. Folder tersebut kemudian dapat dimount di dalam kontainer. Ini umumnya digunakan untuk dataset di DSW, DLC, atau EAS.

Default Mount Path

Path default untuk memasang data. Ini sering digunakan di DSW dan DLC:

  • Di DSW, Anda dapat memasang sistem file yang sudah ada ke path ini saat membuat instans.

  • Di DLC, kode Anda dapat mengakses file di direktori ini. Misalnya, python /root/data/file.py.

Enable Version Acceleration

Anda dapat mengaktifkan dataset version acceleration saat Anda mengatur Import Format ke Folder. Pengaturan utamanya meliputi:

  • Maximum Capacity: Kapasitas slot akselerasi. Nilai ini harus lebih besar dari atau sama dengan ukuran dataset.

  • Accelerated Mount Target: Secara default, mount target internal digunakan. Anda juga dapat memilih mount target akselerasi yang sudah ada atau membuat yang baru.

    Catatan

    Saat menggunakan Sumber daya komputasi cerdas Lingjun, jika Anda memilih untuk Create Mount Target untuk Accelerated Mount Target, Anda harus mengatur Mount Target Type ke VPC. VPC dan vSwitch yang dipilih harus sesuai dengan yang digunakan oleh sumber daya Lingjun.

  • Accelerated Version Default Mount Path: Path mount default untuk versi dataset yang dipercepat.

Storage type adalah file system

Parameter

Deskripsi

Content Type

Pilih tipe data, seperti image, text, audio, video, table, atau general. Menentukan tipe memungkinkan sistem menyaring dataset untuk tugas pelabelan di masa depan.

Owner

Pilih pemilik dataset. Hanya administrator ruang kerja yang dapat mengonfigurasi parameter ini.

File System

Pilih sistem file yang sesuai dengan Storage Type.

Mount Target

Konfigurasikan titik pemasangan untuk mengakses sistem file.

File System Path

Tentukan path ke data Anda di dalam sistem file. Misalnya, /.

Default Mount Path

Path default untuk memasang data. Ini sering digunakan di DSW dan DLC:

  • Di DSW, Anda dapat memasang sistem file yang sudah ada ke path ini saat membuat instans.

  • Di DLC, kode Anda dapat mengakses file di direktori ini. Misalnya, python /root/data/file.py.

Enable Version Acceleration

Jika Storage Type adalah General-purpose NAS, Extreme NAS, atau CPFS, Anda dapat mengaktifkan dataset version acceleration. Parameter utamanya dijelaskan sebagai berikut:

  • Maximum Capacity: Kapasitas slot akselerasi. Nilai ini harus lebih besar dari atau sama dengan ukuran dataset.

  • Accelerated Version Default Mount Path: Path mount default untuk versi dataset yang dipercepat.

Buat versi dataset dasar

Pada tab Custom Datasets, klik Create Version di kolom Actions untuk dataset target.

image

Catatan:

  • Nama dataset, tipe penyimpanan, dan tipe data diwariskan dari versi V1 dan tidak dapat diubah.

  • Sistem secara otomatis menghasilkan versi dataset, yang bersifat read-only.

  • Untuk pengaturan parameter lainnya, lihat penjelasan di bagian Buat dataset dasar.

Lihat dataset publik

Sistem menyediakan berbagai dataset publik bawaan, seperti MMLU, CMMLU, dan GSM8K. Pada tab Public Datasets, Anda dapat mengklik nama dataset untuk melihat informasi dasarnya.

image

Kelola dataset

Untuk dataset kustom, Anda dapat melihat daftar versi, membuat versi baru, mengatur dataset menjadi publik, atau menghapusnya. Untuk dataset berlabel, Anda dapat melihat datanya, mengaturnya menjadi publik, atau menghapusnya.

image

Catatan:

  • Untuk dataset yang memiliki Visibility diatur ke Visible only to dataset owner, Anda dapat mengklik Make Dataset Public untuk membagikan dataset dalam ruang kerja. Hal ini memungkinkan semua anggota ruang kerja melihat dataset tersebut. Setelah dijadikan publik, dataset tidak dapat dikembalikan ke status privat. Lakukan dengan hati-hati.

  • Jika pengguna RAM menerima error access denied saat mencoba melihat data dataset, Anda harus memberikan izin kepada pengguna RAM tersebut.

  • Menghapus dataset dapat memengaruhi tugas yang sedang berjalan dan bergantung padanya. Penting: Penghapusan dataset bersifat permanen. Lakukan dengan hati-hati.