Dataset Accelerator (DatasetAcc) adalah layanan Platform as a Service (PaaS) dari Alibaba Cloud yang mempercepat akses ke set data untuk beban kerja AI di cloud. Dalam skenario pelatihan pembelajaran mesin, DatasetAcc melakukan pra-analisis dan memproses set data pelatihan Anda guna menyediakan solusi akselerasi akses terpadu bagi berbagai mesin pelatihan cloud-native, sehingga meningkatkan efisiensi pelatihan secara keseluruhan.
Arsitektur
Gambar berikut menunjukkan arsitektur Dataset Accelerator.
Batasan
Sebelum menggunakan Dataset Accelerator, perhatikan batasan berikut.
-
Hanya set data yang disimpan di Alibaba Cloud yang dapat dipercepat, seperti set data di Object Storage Service (OSS) atau Cloud Parallel File System (CPFS).
-
Set data harus tidak terenkripsi dan disimpan di Alibaba Cloud.
-
Data dalam Dataset Accelerator bersifat read-only. Penulisan data dinamis tidak didukung.
-
Satu instans Dataset Accelerator dapat mempercepat set data hingga ukuran 100 TB.
Penagihan
Dataset Accelerator ditagih berdasarkan kapasitas yang dibeli dan durasi penggunaan. Untuk informasi selengkapnya, lihat Penagihan Dataset Accelerator (DatasetAccelerator).
Fitur
-
Pelatihan yang dioptimalkan untuk jumlah besar file kecil.
Dataset Accelerator meningkatkan kinerja dalam skenario pelatihan yang melibatkan banyak file kecil, seperti gambar, teks, dan video. Data dipaketkan dan diproses sebelumnya berdasarkan tipe model dan struktur jaringan yang digunakan dalam pelatihan pembelajaran mendalam.
-
Fully managed dan siap pakai.
Layanan ini merupakan layanan cloud yang sepenuhnya dikelola, mudah dioperasikan, dan langsung dapat digunakan setelah Anda mengaktifkannya.
-
Elastis dan skalabel.
Layanan ini memanfaatkan kemampuan lapisan Infrastructure as a Service (IaaS) untuk menyediakan penskalaan sumber daya dan elastisitas yang cepat.
-
Akses bersama.
Beberapa kluster pelatihan dapat berbagi set data dalam Dataset Accelerator untuk pelatihan.
-
Multi-tenancy yang aman.
Layanan ini menyediakan isolasi data multi-penyewa untuk menjamin keamanan data antar pengguna yang berbeda.
Istilah
Sebelum menggunakan Dataset Accelerator, pahami konsep dasar berikut.
-
Instans dataset accelerator (Instance)
Instans merupakan unit penagihan dan manajemen untuk Dataset Accelerator. Saat Anda membuat instans langganan, sistem akan mencadangkan sumber daya cloud yang sesuai dan penagihan dimulai segera. Untuk instans pay-as-you-go, Anda dikenai biaya berdasarkan penggunaan slot akselerasi.
-
Slot akselerasi (Slot)
Slot adalah unit layanan untuk satu set data. Anda dapat membuat beberapa slot akselerasi dalam satu instans Dataset Accelerator. Setiap slot mempercepat satu set data, sehingga memungkinkan beberapa tugas pelatihan pembelajaran mendalam menggunakan set data berbeda secara simultan.
-
Hubungan antara instans dan slot
Anda dapat membuat beberapa instans Dataset Accelerator. Untuk setiap instans, Anda dapat membuat beberapa slot akselerasi dengan kapasitas berbeda. Rasio antara instans dan slot-nya adalah 1:n. Setiap slot akselerasi disambungkan ke satu penyimpanan set data.
Prosedur
Prosedur penggunaan Dataset Accelerator mencakup langkah-langkah berikut.
-
Buat dan kelola instans Dataset Accelerator
Buat instans Dataset Accelerator sesuai kebutuhan bisnis, ukuran tim, frekuensi pelatihan, dan ukuran set data Anda. Satu instans dapat mendukung akselerasi beberapa set data untuk tugas pelatihan berbeda menggunakan beberapa slot akselerasi.
Dataset Accelerator mengonsumsi sumber daya cloud tambahan. Untuk memastikan ketersediaan sumber daya bagi tugas pelatihan penting, kami menyarankan Anda menggunakan metode penagihan langganan untuk mencadangkan sumber daya instans Dataset Accelerator Anda terlebih dahulu.
-
Buat dan kelola slot akselerasi
Dalam instans Dataset Accelerator yang dipilih, buat slot akselerasi berdasarkan ukuran set data yang digunakan untuk pelatihan. Satu instans dapat berisi beberapa slot. Total penyimpanan semua slot tidak boleh melebihi kapasitas instans tersebut.
Saat membuat slot, sistem akan memproses set data terkait sebelumnya berdasarkan faktor-faktor seperti tipe data, ukuran data, serta framework dan model pelatihan. Setelah inisialisasi selesai, Dataset Accelerator menyediakan antarmuka yang dapat langsung digunakan oleh tugas pelatihan Anda.
-
Gunakan Dataset Accelerator di platform PAI
Saat membuat set data di platform PAI, Anda dapat mengaktifkan akselerasi set data. Anda kemudian dapat menggunakan set data yang dipercepat tersebut saat membuat instans Data Science Workshop (DSW) atau mengirim pekerjaan DLC untuk meningkatkan efisiensi pembacaan data.