全部产品
Search
文档中心

Platform For AI:Dataset accelerator

更新时间:Jul 02, 2025

Dataset Accelerator (DatasetAcc) adalah layanan Platform as a Service (PaaS) yang disediakan oleh Alibaba Cloud Platform for AI (PAI) untuk mempercepat dataset berbasis AI di cloud. Layanan ini menawarkan solusi percepatan dataset terpusat untuk berbagai mesin pelatihan berbasis cloud-native dengan menganalisis dan memproses dataset yang telah Anda latih sebelumnya guna meningkatkan efisiensi pelatihan secara keseluruhan.

Arsitektur

Gambar berikut mengilustrasikan arsitektur Dataset Accelerator dari PAI. 使用数据集加速器

Batasan

Sebelum menggunakan Dataset Accelerator, pastikan Anda memahami batasan berikut:

  • Hanya dataset yang disimpan di Alibaba Cloud yang dapat dipercepat, seperti dataset Object Storage Service (OSS) atau Cloud Parallel File System (CPFS).

  • Dataset tidak boleh dienkripsi.

  • Data dalam dataset accelerator bersifat hanya-baca. Penulisan data dinamis tidak didukung.

  • Sebuah dataset accelerator dapat mempercepat hingga 100 TB data.

Aturan penagihan

Dataset Accelerator ditagih berdasarkan kapasitas dan durasi penggunaan. Untuk informasi lebih lanjut, lihat Penagihan Dataset Accelerator.

Fitur

  • Optimasi pelatihan untuk sejumlah besar file kecil seperti gambar, teks, dan video.

    Dataset Accelerator mengemas ulang dan memproses data seperti gambar, teks, dan video berdasarkan jenis model dan struktur jaringan yang digunakan dalam pelatihan deep learning untuk meningkatkan kinerja pelatihan yang melibatkan sejumlah besar file kecil.

  • Layanan yang sepenuhnya dikelola dan siap pakai.

    Dataset Accelerator menyediakan layanan cloud yang sepenuhnya dikelola dan siap digunakan tanpa konfigurasi tambahan.

  • Layanan yang dapat diskalakan.

    Dataset Accelerator memanfaatkan kemampuan Infrastructure-as-a-Service (IaaS) untuk mendukung penskalaan sumber daya dengan cepat sesuai kebutuhan.

  • Berbagi data.

    Dataset dalam dataset accelerator dapat digunakan oleh beberapa kluster pelatihan secara bersamaan.

  • Keamanan data.

    Dataset Accelerator mendukung isolasi multi-pengguna untuk memastikan keamanan data antar pengguna.

Konsep

Sebelum menggunakan Dataset Accelerator, pastikan Anda memahami konsep-konsep berikut:

  • Accelerator.

    Satuan penagihan dan manajemen Dataset Accelerator. Jika Anda membuat accelerator berlangganan, sistem akan memesan sumber daya terkait dan penagihan dimulai saat accelerator dibuat. Jika Anda membuat accelerator bayar sesuai pemakaian, Anda akan dikenakan biaya berdasarkan penggunaan slot.

  • Slot.

    Anda dapat membuat beberapa slot untuk sebuah accelerator. Satu slot mempercepat satu dataset, memungkinkan Anda mempercepat tugas deep learning yang menggunakan dataset berbeda secara bersamaan.

  • Hubungan antara accelerator dan slot.

    Anda dapat membuat beberapa accelerator dan mengajukan beberapa slot dengan kapasitas berbeda untuk setiap accelerator. Satu slot dikaitkan dengan satu dataset.

Prosedur

Untuk menggunakan Dataset Accelerator, ikuti langkah-langkah berikut:

  1. Buat dan kelola accelerator

    Anda dapat membuat accelerator berdasarkan kebutuhan bisnis, ukuran tim, frekuensi pelatihan, dan ukuran dataset. Gunakan beberapa slot untuk mempercepat beberapa dataset untuk tugas pelatihan yang berbeda.

    Accelerator mengonsumsi sumber daya cloud. Untuk memastikan sumber daya tersedia bagi tugas pelatihan penting, disarankan menggunakan metode penagihan berlangganan saat membuat accelerator.

  2. Buat dan kelola slot

    Anda dapat membuat slot dalam sebuah accelerator berdasarkan ukuran dataset yang digunakan untuk pelatihan. Sebuah accelerator dapat berisi beberapa slot, dengan total kapasitas semua slot tidak melebihi kapasitas accelerator tempat slot tersebut berada.

    Setelah membuat slot, sistem akan memproses dataset terkait berdasarkan faktor-faktor seperti tipe data, ukuran data, framework, dan model yang digunakan untuk pelatihan. Setelah inisialisasi selesai, accelerator menyediakan antarmuka terkait untuk tugas pelatihan.

  3. Gunakan Dataset Accelerator

    Saat membuat dataset di PAI, Anda dapat mengaktifkan percepatan dataset. Dataset yang dipercepat dapat digunakan saat membuat instance Data Science Workshop (DSW) atau mengirimkan pekerjaan Deep Learning Containers (DLC) untuk meningkatkan efisiensi pembacaan data.