すべてのプロダクト
Search
ドキュメントセンター

ENS:エッジクラウドでの AI 推論のベストプラクティス

最終更新日:Apr 01, 2026

Edge Node Service (ENS) は、エンドユーザーの近くにデプロイされた、分散型で伸縮性のある GPU コンピューティングリソースを提供します。エッジで AI 推論を実行することで、レスポンスレイテンシーを削減し、中央のデータセンターのトラフィックをオフロードします。このガイドでは、モデルに適した GPU 構成の選択、ネットワークとストレージ基盤の構築、推論エンジンのデプロイの手順を説明し、画像分類、オブジェクト検出、音声認識、セマンティック分析などのシナリオをサポートする実用的な ENS 推論環境を構築します。

前提条件

開始する前に、以下をご確認ください。

  • ENS アカウントが有効化されていること。詳細については、「ENS の有効化」をご参照ください。

  • エッジノード用に計画された CIDR ブロックで Virtual Private Cloud (VPC) が作成されていること。

ステップ 1: GPU 構成の選択

利用可能な GPU タイプ

ENS は、さまざまな価格帯で 4 種類の GPU タイプを提供しています。単一 GPU のメモリは 12 GB から 48 GB の範囲です。GPU 技術の進化に伴い、追加の仕様が追加される予定です。

GPU タイプGPU メモリ利用可能な構成
A12 GBA×1
B16 GBB×1、B×2、B×4
C24 GBC×1、C×2、C×4、C×8
D48 GBD×1、D×2

モデルと GPU 構成のマッチング

以下の表は、一般的なモデルサイズに対する推奨構成を示しています。ベンチマークは、0.5 B から 72 B のパラメーターを持つ Tongyi Qianwen および Llama 2 モデルに基づき、FP16 精度で評価されています。

モデルパラメーター推奨構成
1BA×1
7BC×1
14BC×2
32BD×2
72BC×8

サポートされているシナリオには、軽量な対話、インテリジェントカスタマーサービス、テキストベースの画像生成、動画理解、コード生成、コンテンツ作成、インテリジェントアシスタントなどがあります。

精度を下げる (例:FP16 から INT8 へ) ことで、同じ GPU 構成でより大きなモデルを実行できます。

ステップ 2: ENS の機能レイヤーの理解

ENS は、推論環境を構築するために組み合わせることができる 4 つの機能レイヤーを提供します。

ENS capability layers
レイヤー提供内容
基本リソースレイヤーヘテロジニアス GPU コンピューティング、CPU コンピューティング、およびデータの永続化のためのストレージ
リソース構成レイヤーネットワークアドレス変換 (NAT)、Edge Load Balancer (ELB)、Elastic IP アドレス (EIP)、およびコンテナサービス。コンテナマルチボクシングは、単一の GPU インスタンス上で複数のコンテナを実行し、使用率を向上させ、コストを削減します。
サービスアクセラレーションレイヤーAIACC 推論アクセラレーションエンジン (Alibaba Cloud 開発) およびオープンソースの TensorRT ツールキット
サービススケジューリングレイヤーリクエストを近くのエッジノードにルーティングするスケジューリングポリシー、自動フェイルオーバー、およびノード間でユーザーデータを同期するための協調ストレージ

ステップ 3: コンピューティングリソースの作成

  1. ENS コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[コンピューティング容量とイメージ] > [インスタンス] を選択します。

  3. [インスタンス]」ページで、「[インスタンスの作成]」をクリックします。パラメーターを設定して注文を完了します。詳細については、「インスタンスを作成する」をご参照ください。

説明

ヘテロジニアスコンピューティングリソースは、サブスクリプションの課金方法のみをサポートしています。インスタンスを作成する前に、アカウントマネージャーにインスタンスの仕様を確認してください。

ステップ 4: ネットワークリソースの作成

左のナビゲーションウィンドウで、[ネットワーク管理] を選択し、ワークロードで必要なネットワークリソースを作成します:

要件リソースドキュメント
インターネットアクセスまたはパブリック向けサービスElastic IP アドレス (EIP)エッジ EIP の作成と管理
複数のインスタンスにトラフィックを分散Edge Load Balancer (ELB)ELB インスタンスの作成
パブリック IP アドレスの変換エッジ NAT ゲートウェイエッジ NAT ゲートウェイの作成と管理

ステップ 5: ストレージリソースの作成

左側のナビゲーションウィンドウで、[ストレージとスナップショット] を選択し、ワークロードに必要なストレージリソースを作成します:

要件リソースドキュメント
単一インスタンスでのデータの永続化ディスクディスクの作成と管理
複数の ENS インスタンス間でのデータ共有NAS ファイルシステムファイルシステムの作成と管理

ステップ 6: 推論エンジンのデプロイ

状況に応じて、いずれかのデプロイアプローチを選択してください。

アプローチ使用する状況
オプション A: VM 上の AIACC初期検証、インスタンスへの直接インストール
オプション B: コンテナ内の AIACC (推奨)本番環境へのデプロイ、環境管理の簡素化
オプション C: コンテナ内の TensorRTワークロードが既に NVIDIA TensorRT エコシステムを使用している場合

3 つのオプションはすべて、Ubuntu 20.04 上で NVIDIA Tesla T4 GPU を使用します。

サポートされているランタイムとバージョン

コンポーネントオプション A (VM: AIACC)オプション B (コンテナ: AIACC)オプション C (コンテナ: TensorRT)
GPU ドライバー535.154.05 以降535.154.05お使いの TensorRT イメージに合わせる
CUDA11.812.2お使いの TensorRT イメージに合わせる
Python3.8— (コンテナ管理)— (コンテナ管理)
PyTorch2.1.0— (コンテナ管理)— (コンテナ管理)
Deepytorch Inference0.7.18+pt2.1.0cu118-cp38-cp38— (コンテナ管理)
イメージソースアカウントマネージャーにお問い合わせくださいNVIDIA PyTorch リリースノート

オプション A: VM への AIACC の直接インストール

  1. ENS インスタンスへの接続

  2. CUDA Toolkit 11.8 をインストールし、PATH および LD_LIBRARY_PATH 環境変数を更新します。

  3. NVIDIA のウェブサイトから GPU ドライバーバージョン 535.154.05 以降 (NVIDIA-Linux-x86_64-535.154.05.run) をダウンロードしてインストールします。利用可能な最新バージョンをインストールしてください。

  4. 現在のユーザーに AIACC エンジンの使用を許可します。

    echo 'export DEEPGPU_EXT_CURL=MzkuOTguMjIuMTI2OjcwNzA=' >> /etc/profile
    source /etc/profile
  5. Python の依存関係をインストールします。

    pip3 install torch==2.1.0 torchvision==0.16.0 numpy transformers

オプション B: コンテナへの AIACC のデプロイ (推奨)

  1. ENS インスタンスに接続する

  2. CUDA 12.2 を含む GPU ドライバーバージョン 535.154.05 をインストールします。

  3. NVIDIA Container Toolkit をインストールします。NVIDIA Container Toolkit インストールガイドをご参照ください。

  4. アカウントマネージャーから AIACC コンテナイメージ deepytorch_t4_ubuntu20.04.tar.gz を入手します。

  5. イメージをロードします。

    docker load -i deepytorch_t4_ubuntu20.04.tar
    
    docker images
    # REPOSITORY   TAG       IMAGE ID       CREATED      SIZE
    # <none>       <none>    7aef27446ff0   3 days ago   22.6GB
  6. コンテナを起動します。

    #!/bin/bash
    /usr/bin/docker run --runtime=nvidia -ti -d --gpus all --network=host \
               7aef27446ff0 sleep 86400000

    Kubernetes を使用してコンテナインスタンスを作成および管理することもできます。

オプション C: コンテナへの TensorRT のデプロイ

  1. ENS インスタンスに接続する

  2. NVIDIA GPU ドライバーをインストールします。

  3. NVIDIA Container Toolkit をインストールします。

  4. NVIDIA PyTorch リリースノートから TensorRT コンテナイメージをダウンロードします。

  5. コンテナを起動します。

説明

イメージ内の CUDA と TensorRT のバージョンは、インストールした GPU ドライバーのバージョンと一致している必要があります。

ステップ 7: リソースの関連付けと環境の検証

ENS コンソールまたは API を使用して、コンピューティング、ネットワーク、およびストレージリソースを関連付けます。

ENS inference environment architecture

ご利用の環境は、画像分類、オブジェクト検出、音声認識、セマンティック分析などの AI 推論シナリオをサポートします。

ENS によるエッジノード間のリクエストスケジューリングの自動管理をご希望の場合は、アカウントマネージャーにお問い合わせください。

次のステップ

  • ENS インスタンスでのコンテナサービスの設定については、ENS コンテナのドキュメントをご参照ください。

  • 複数のエッジノードに推論環境をスケールするには、アカウントマネージャーに連絡してサービススケジューリングを有効にしてください。