PyTorch モデルサービスのデプロイと呼び出し - Platform for AI (PAI)

Elastic Algorithm Service (EAS) には、標準の PyTorch モデルを TorchScript フォーマットでオンラインサービスとしてデプロイするための組み込み PyTorch プロセッサーが提供されています。本トピックでは、PyTorch モデルサービスのデプロイおよび呼び出し方法について説明します。

PyTorch プロセッサーバージョンガイド

PyTorch は複数のバージョン（GPU 版および CPU 版）をサポートしています。次の表に、各バージョンに対応するプロセッサー名を示します。

プロセッサー名	PyTorch バージョン	GPU 版をサポート
pytorch_cpu_1.6	PyTorch 1.6	いいえ
pytorch_cpu_1.7	PyTorch 1.7	いいえ
pytorch_cpu_1.9	PyTorch 1.9	いいえ
pytorch_cpu_1.10	PyTorch 1.10	いいえ
pytorch_gpu_1.6	PyTorch 1.6	はい
pytorch_gpu_1.7	PyTorch 1.7	はい
pytorch_gpu_1.9	PyTorch 1.9	はい
pytorch_gpu_1.10	PyTorch 1.10	はい

ステップ 1：サービスのデプロイ

eascmd クライアントを使用して PyTorch モデルサービスをデプロイする場合、processor パラメーターを上記の表にある PyTorch プロセッサー名のいずれかに設定します。以下のコードは、サービス構成ファイルのサンプルです。

{

  "name": "pytorch_resnet_example",
  "model_path": "http://examplebucket.oss-cn-shanghai.aliyuncs.com/models/resnet18.pt",
  "processor": "pytorch_cpu_1.6",
    "metadata": {
    "cpu": 1,
    "instance": 1,
    "memory": 1000
  }
}

クライアントツールを使用したサービスのデプロイ方法の詳細については、「サービスのデプロイ：EASCMD と DSW」をご参照ください。

コンソールを使用して PyTorch モデルサービスをデプロイすることもできます。詳細については、「サービスのデプロイ：コンソール」をご参照ください。

ステップ 2：サービスの呼び出し

PyTorch サービスは、プレーンテキストではなく Protocol Buffers (Protobuf) フォーマットを入出力に使用します。オンラインデバッグ機能はプレーンテキストデータのみをサポートしているため、コンソールのオンラインデバッグ機能は使用できません。

EAS では、さまざまなプログラミング言語向けのソフトウェア開発キット (SDK) が提供されています。これらの SDK はリクエストおよび応答データをカプセル化し、直接接続およびフォールトトレランスのメカニズムを備えています。SDK を使用してリクエストを構築および送信できます。以下のコードは、推論リクエストのサンプルです。

#!/usr/bin/env python

from eas_prediction import PredictClient
from eas_prediction import TorchRequest

if __name__ == '__main__':
    client = PredictClient('http://182848887922****.cn-shanghai.pai-eas.aliyuncs.com', 'pytorch_gpu_wl')
    client.init()

    req = TorchRequest()
    req.add_feed(0, [1, 3, 224, 224], TorchRequest.DT_FLOAT, [1] * 150528)
    # req.add_fetch(0)
    for x in range(0, 10):
        resp = client.predict(req)
        print(resp.get_tensor_shape(0))

コード内のパラメーター設定および呼び出し方法の詳細については、「Python SDK の使用」をご参照ください。

独自にサービスリクエストを構築することも可能です。詳細については、「リクエストフォーマット」をご参照ください。

リクエストフォーマット

PyTorch プロセッサーは、入出力に Protobuf フォーマットを使用します。SDK を使用してリクエストを送信する場合、リクエストはすでにカプセル化されています。SDK が提供する関数をそのまま使用して構築できます。独自にサービスリクエストを構築したい場合は、以下の .proto 定義から必要なコードを生成できます。詳細については、「TensorFlow サービスのリクエスト構築」をご参照ください。

syntax = "proto3";

package pytorch.eas;
option cc_enable_arenas = true;

enum ArrayDataType {
  // DataType の有効な値ではない。DataType フィールドが設定されていないことを示すために使用
  DT_INVALID = 0;

  // すべての計算デバイスがサポートすることが期待されるデータ型
  DT_FLOAT = 1;
  DT_DOUBLE = 2;
  DT_INT32 = 3;
  DT_UINT8 = 4;
  DT_INT16 = 5;
  DT_INT8 = 6;
  DT_STRING = 7;
  DT_COMPLEX64 = 8;  // 単精度複素数
  DT_INT64 = 9;
  DT_BOOL = 10;
  DT_QINT8 = 11;     // 量子化 int8
  DT_QUINT8 = 12;    // 量子化 uint8
  DT_QINT32 = 13;    // 量子化 int32
  DT_BFLOAT16 = 14;  // 16 ビットに切り詰められた Float32。キャスト演算専用
  DT_QINT16 = 15;    // 量子化 int16
  DT_QUINT16 = 16;   // 量子化 uint16
  DT_UINT16 = 17;
  DT_COMPLEX128 = 18;  // 倍精度複素数
  DT_HALF = 19;
  DT_RESOURCE = 20;
  DT_VARIANT = 21;  // 任意の C++ データ型
}

// 配列の次元
message ArrayShape {
  repeated int64 dim = 1 [packed = true];
}

// 配列を表すプロトコルバッファー
message ArrayProto {
  // データ型
  ArrayDataType dtype = 1;

  // 配列の形状
  ArrayShape array_shape = 2;

  // DT_FLOAT
  repeated float float_val = 3 [packed = true];

  // DT_DOUBLE
  repeated double double_val = 4 [packed = true];

  // DT_INT32、DT_INT16、DT_INT8、DT_UINT8
  repeated int32 int_val = 5 [packed = true];

  // DT_STRING
  repeated bytes string_val = 6;

  // DT_INT64
  repeated int64 int64_val = 7 [packed = true];

}


message PredictRequest {

  // 入力テンソル
  repeated ArrayProto inputs = 1;

  // 出力フィルター
  repeated int32 output_filter = 2;
}

// 成功時の PredictRequest の応答
message PredictResponse {
  // 出力テンソル
  repeated ArrayProto outputs = 1;
}