PAI-Blade menggabungkan berbagai teknologi optimasi untuk mengoptimalkan model yang telah dilatih guna mencapai performa inferensi optimal dan menyediakan SDK C++ untuk menerapkan model yang telah dioptimalkan. Topik ini menjelaskan cara kerja Blade serta alur penggunaannya.
Informasi latar belakang
PAI-Blade adalah alat optimasi inferensi universal yang menggunakan pendekatan terpadu antara sistem dan model untuk membantu mencapai performa inferensi optimal. Blade mengintegrasikan berbagai teknologi optimasi, seperti optimasi computational graph, pustaka optimasi vendor (TensorRT dan oneDNN), optimasi kompilasi AI, pustaka operator yang dioptimalkan secara manual oleh Blade, presisi campuran Blade, dan Auto-Compression Blade. Blade terlebih dahulu menganalisis model, lalu menerapkan sebagian atau seluruh teknologi optimasi tersebut.
Seluruh teknologi optimasi dalam Blade dirancang untuk penggunaan umum dan dapat diterapkan pada berbagai skenario bisnis. Blade juga memverifikasi akurasi numerik setiap langkah optimasi, sehingga memastikan proses optimasi tidak memengaruhi akurasi atau metrik model secara tak terduga.
PAI memperkenalkan Blade sebagai Produk baru untuk menurunkan hambatan masuk dalam optimasi model, meningkatkan pengalaman pengguna, dan meningkatkan efisiensi produksi.
Cara kerja
Instal Blade sebagai paket wheel di lingkungan Anda untuk menghindari langkah-langkah kompleks seperti permintaan sumber daya atau unggah model dan data. Panggil API Python Blade dalam kode Anda untuk mengintegrasikan optimasi model ke dalam alur kerja Anda dan verifikasi performa model yang telah dioptimalkan secara lokal. Dengan demikian, Anda dapat dengan mudah mencoba berbagai kebijakan optimasi dan mengeksplorasi lebih banyak kombinasi parameter.
Blade juga menyediakan SDK C++ untuk penerapan layanan. Model yang telah dioptimalkan bergantung pada SDK tersebut saat waktu proses, tetapi Anda tidak perlu mengubah kode model—cukup hubungkan file pustaka Blade.
Alur penggunaan
Ikuti langkah-langkah berikut untuk menggunakan Blade:
-
Optimalkan model. Untuk informasi selengkapnya, lihat Optimalkan model TensorFlow dan Optimalkan model PyTorch.
Untuk melakukan optimasi kuantisasi pada model, lihat Optimasi kuantisasi. Untuk menentukan mode optimasi kompilasi, lihat Optimasi kompilator AI.
-
Interpretasikan laporan optimasi. Untuk informasi selengkapnya, lihat Laporan optimasi.
-
Terapkan model untuk inferensi. Untuk informasi selengkapnya, lihat Gunakan SDK untuk menerapkan model TensorFlow untuk inferensi, Gunakan SDK untuk menerapkan model PyTorch untuk inferensi, dan Gunakan Plugin Blade EAS untuk mengoptimalkan dan menerapkan model.