トレーニング済みモデル推論最適化 - Platform for AI

PAI-Blade は、複数の最適化技術を組み合わせて学習済みモデルを最適化し、最適な推論パフォーマンスを実現します。また、最適化されたモデルをデプロイするための C++ SDK を提供します。この Topic では、Blade の仕組みとワークフローについて説明します。

背景情報

PAI-Blade は、モデルとシステムの共同最適化を利用して、モデルが最適な推論パフォーマンスを達成できるよう支援する汎用的な推論最適化ツールです。Blade は、計算グラフの最適化、ベンダーの最適化ライブラリ (TensorRT および oneDNN)、AI コンパイラ最適化、Blade の手動で最適化されたオペレーターライブラリ、Blade 混合精度、Blade Auto-Compression など、さまざまな最適化技術を組み合わせています。Blade はまずモデルを分析し、これらの最適化技術の一部またはすべてを適用します。

Blade のすべての最適化技術は汎用的に設計されており、さまざまなビジネスシナリオに適用できます。また、Blade は各最適化ステップの数値精度も検証します。これにより、最適化がモデルの精度やメトリックに予期せず影響を与えることがないように保証されます。

PAI は、モデル最適化の参入障壁を下げ、ユーザーエクスペリエンスを向上させ、生産効率を高めるための新しいプロダクトとして Blade を導入しました。

仕組み

Blade を wheel パッケージとしてご利用の環境にインストールすることで、リソースのリクエストやモデルとデータのアップロードといった複雑なステップを回避できます。コード内で Blade の Python API を呼び出すことで、モデルの最適化をワークフローに統合し、最適化されたモデルのパフォーマンスをローカルで検証できます。これにより、さまざまな最適化ポリシーを簡単に試したり、より多くのパラメーターの組み合わせを探索したりできます。

Blade は、サービスデプロイ用の C++ SDK も提供します。最適化されたモデルはランタイム時に SDK に依存しますが、モデルコードを変更する必要はありません。Blade のライブラリファイルをリンクするだけで済みます。

利用フロー

Blade を使用するには、次のステップに従います：

Blade のインストール。
モデルの最適化。詳細については、「TensorFlow モデルの最適化」および「PyTorch モデルの最適化」をご参照ください。

モデルに対して量子化最適化を実行するには、「量子化最適化」をご参照ください。コンパイル最適化のモードを指定するには、「AI コンパイラ最適化」をご参照ください。
最適化レポートの解釈。詳細については、「最適化レポート」をご参照ください。
推論のためのモデルのデプロイ。詳細については、「SDK を使用した TensorFlow モデルの推論デプロイ」、「SDK を使用した PyTorch モデルの推論デプロイ」、および「Blade EAS Plugin を使用したモデルの最適化とデプロイ」をご参照ください。