AI モデルとデプロイメント - Hologres - Alibaba Cloud ドキュメントセンター

このトピックでは、Hologres AI ノードに内蔵されたモデルのデプロイ方法について説明します。また、利用可能なモデルの一覧およびその使用方法も記載しています。内蔵モデルを呼び出すには、事前に AI リソースを購入する必要があります。モデルがデプロイされた後は、AI Function を使用して呼び出せます。

前提条件

AI ノードの内蔵モデルを呼び出すには、AI リソース（GPU）が必要です。まず、AI リソースを購入してください。詳細については、「AI ノードの概要と料金」をご参照ください。

モデルのデプロイメント

デプロイメントに関する注意事項

アプリケーションのシナリオに応じてデプロイするモデルを選択してください。各モデルには、デプロイに必要な最小限の AI リソース割り当てがあります。
単一のインスタンス上で複数のモデルをデプロイできます。ただし、モデルに割り当てるリソースの合計は、購入済みの AI リソースの総量を超えてはなりません。AI リソースが不足している場合は、リソースのスケールアウトを行ってください。
プライマリインスタンスおよびセカンダリインスタンスの場合：モデルのデプロイやリソース変更、モデル削除などの関連操作は、プライマリインスタンスでのみ実行できます。セカンダリインスタンスでは、プライマリインスタンス上でデプロイされたモデルを表示し、AI Function を使用して呼び出すことができます。

モデルのデプロイ

Hologres コンソールにログインし、左上隅からリージョンを選択します。
左側のナビゲーションウィンドウで Instances をクリックし、対象のインスタンスの ID をクリックします。
Instance Details ページで、AI ノード をクリックします。
モデルリスト エリアで、デプロイモデル をクリックします。
「モデルのデプロイ」ダイアログボックスで、モデル名 を入力し、モデルタイプ を選択します。リソース設定 のパラメーターは、選択した モデルタイプ に基づいて自動的に設定されます。各モデルには推奨される最小リソース割り当てがあります。最適なパフォーマンスを得るためには、選択したモデルに応じて適切なリソースを割り当ててください。
設定を完了したら、OK をクリックしてモデルをデプロイします。
デプロイ状況は、モデルリスト 一覧で確認でき、以下の操作を実行できます：
- モデル構成の調整：対象モデルの Actions 列で、設定の調整 をクリックします。
- モデルの削除：対象モデルの Actions 列で、Delete をクリックします。
  説明
  モデルを削除すると、現在そのモデルを呼び出しているサービスの有無をシステムがチェックしません。十分にご注意ください。

モデルの使用

モデルが正常にデプロイされた後は、Hologres 内の AI Function を使用して呼び出せます。詳細については、「AI Function」をご参照ください。

モデル一覧

Hologres では、さまざまな AI シナリオに対応した内蔵モデルを提供しています。ご自身のビジネスニーズに応じて必要なモデルをデプロイし、その後、AI Function を使用して呼び出してください。以下に、Hologres で利用可能な内蔵モデルを示します。

モデル分類	モデル名	単一レプリカあたりの推奨最小 CPU（コア数）	単一レプリカあたりの推奨最小メモリ（GB）	単一レプリカ用の最小推奨カード数	単一レプリカあたりの推奨最小 GPU メモリ（GB）	対応インスタンスバージョン	備考
PDF 変換モデル	ds4sd/docling-models	20	100	シングルカード／マルチカード	48 GB	Hologres V4.0 以降
テキストチャンキング	recursive-character-text-splitter	15	30	0	0	Hologres V3.2 以降	業務ボリュームに応じて CPU 構成を選択してください。GPU の構成は不要です。
マルチモーダルモデル	Qwen/Qwen2.5-VL-3B-Instruct	7	24	シングルカード／マルチカード	24 GB	Hologres V4.0 以降
マルチモーダルモデル	Qwen/Qwen2.5-VL-7B-Instruct	7	30	シングルカード／マルチカード	48 GB	Hologres V4.0 以降
マルチモーダルモデル	Qwen/Qwen2.5-VL-32B-Instruct	7	30	シングルカード／マルチカード	96 GB	Hologres V4.0 以降
テキストモデル	clip-ViT-B-32-multilingual-v1	7	24	シングルカード	24 GB	Hologres V4.0 以降	画像パッチサイズ：32×32。パラメーター数：88M。出力ベクター次元：512
テキスト生成	Qwen/Qwen3-1.7B	7	30	シングルカード／マルチカード	8 GB	Hologres V3.2 以降
テキスト生成	Qwen/Qwen3-4B	7	30	シングルカード／マルチカード	16 GB	Hologres V3.2 以降
テキスト生成	Qwen/Qwen3-8B	7	30	シングルカード／マルチカード	32 GB	Hologres V3.2 以降
テキスト生成	Qwen/Qwen3-14B	7	30	シングルカード／マルチカード	48 GB	Hologres V3.2 以降
テキスト生成	Qwen/Qwen3-32B	7	30	シングルカード／マルチカード	96 GB	Hologres V3.2 以降
センチメント分類	iic/nlp_structbert_sentiment-classification_chinese-base	7	30	シングルカード	4 GB	Hologres V3.2 以降
ベクター埋め込み	iic/nlp_gte_sentence-embedding_chinese-base	7	30	シングルカード	12 GB	Hologres V3.2 以降	出力ベクター次元：768
ベクター埋め込み	iic/nlp_gte_sentence-embedding_chinese-large	7	30	シングルカード	16 GB	Hologres V3.2 以降	出力ベクター次元：1024
ベクター埋め込み	iic/nlp_gte_sentence-embedding_chinese-small	7	30	シングルカード	8 GB	Hologres V3.2 以降	出力ベクター次元：512
ベクター埋め込み	Qwen/Qwen3-Embedding-0.6B	7	30	シングルカード	8 GB	Hologres V3.2 以降
ベクター埋め込み	Qwen/Qwen3-Embedding-4B	7	30	シングルカード	32 GB	Hologres V3.2 以降
ベクター埋め込み	Qwen/Qwen3-Embedding-8B	7	30	シングルカード	48 GB	Hologres V3.2 以降
ベクター埋め込み	BAAI/bge-base-en-v1.5	7	30	シングルカード	12 GB	Hologres V3.2 以降	出力ベクター次元：768
ベクター埋め込み	BAAI/bge-base-zh-v1.5	7	30	シングルカード	12 GB	Hologres V3.2 以降	出力ベクター次元：768
ベクター埋め込み	BAAI/bge-large-en-v1.5	7	30	シングルカード	16 GB	Hologres V3.2 以降	出力ベクター次元：1024
ベクター埋め込み	BAAI/bge-large-zh-v1.5	7	30	シングルカード	16 GB	Hologres V3.2 以降	出力ベクター次元：1024
ベクター埋め込み	BAAI/bge-small-en-v1.5	7	30	シングルカード	8 GB	Hologres V3.2 以降	出力ベクター次元：384
ベクター埋め込み	BAAI/bge-small-zh-v1.5	7	30	シングルカード	8 GB	Hologres V3.2 以降	出力ベクター次元：512
テキストモデル	clip-ViT-B-32	7	24	シングルカード	24 GB	Hologres V4.0 以降	画像パッチサイズ：32×32。パラメーター数：88M。出力ベクター次元：512
テキストモデル	clip-ViT-L-14	7	24	シングルカード	24 GB	Hologres V4.0 以降	画像パッチサイズ：14×14。パラメーター数：304M。出力ベクター次元：768
ベクター埋め込み	clip-ViT-B-16	7	24	シングルカード	24 GB	Hologres V4.0 以降	画像パッチサイズ：16×16。パラメーター数：88M。出力ベクター次元：512