マルチモーダル埋め込み (multi-modal-embedding) は、Qwen2-VL マルチモーダル大規模言語モデル (MLLM) に基づくサービスです。テキスト、イメージ、および混合データ型を効率的に処理するために、単一モダリティおよび結合されたマルチモダリティ入力をサポートします。
サービス | モデル ID (service_id) | ディメンション | サービスの説明 | API 呼び出しの QPS 制限 (Alibaba Cloud アカウントおよび RAM ユーザー) |
M2-Encoder-Multimodal ベクターモデル | ops-m2-encoder | 768 ディメンション | BM-6B に基づいて 60 億のイメージ-テキストペア (中国語 30 億、英語 30 億) でトレーニングされた、中国語-英語バイリンガルマルチモーダルサービス。このモデルは、テキストからイメージへの検索やイメージからテキストへの検索などのクロスモーダル取得、およびイメージ分類タスクをサポートします。 説明 同じドキュメントにテキストとイメージを入力することはできません。 | 10 説明 より高い QPS を申請するには、チケットを送信してください。 |
M2-Encoder-Large-Multimodal ベクターモデル | ops-m2-encoder-large | 1024 ディメンション | 中国語-英語バイリンガルマルチモーダルサービス。m2-encoder モデルと比較して、このモデルはパラメーター数が多く (10 億)、マルチモーダルタスクでより強力な表現能力と高いパフォーマンスを発揮します。 説明 同じドキュメントにテキストとイメージを入力することはできません。 | |
GME Multimodal Vector-Qwen2-VL-2B | ops-gme-qwen2-vl-2b-instruct | 1536 ディメンション | Qwen2-VL MLLM でトレーニングされたマルチモーダル埋め込みサービス。テキスト、イメージ、および混合データ型を効率的に処理するために、単一モダリティおよび結合されたマルチモダリティ入力をサポートします。 |
前提条件
認証情報が取得されていること。
API を使用して AI Search Open Platform サービスを呼び出す場合、呼び出し元の ID を認証する必要があります。
サービスアクセスアドレスが取得されていること。
サービスは、インターネットまたは VPC 経由で呼び出すことができます。詳細については、「サービス登録アドレスの取得」をご参照ください。
リクエストの説明
共通の説明
リクエストボディは 8 MB を超えることはできません。
リクエストメソッド
POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/multi-modal-embedding/{service_id} host: サービスのエンドポイント。サービスは、インターネットまたは VPC 経由で呼び出すことができます。詳細については、「サービスエンドポイントの取得」をご参照ください。

workspace_name: ワークスペースの名前 (例: default)。
service_id: 組み込みサービスの ID (例: ops-m2-encoder)。
リクエストパラメーター
ヘッダーパラメーター
API キー認証
パラメーター | タイプ | 必須 | 説明 | 例 |
Content-Type | String | はい | リクエストの型: application/json | application/json |
Authorization | String | はい | API キー | Bearer OS-d1**2a |
ボディパラメーター
パラメーター | タイプ | 必須 | 説明 | 例 |
input | List[ContentObject] | はい | 複数の入力をサポートします。リクエストごとに最大 32 個のアイテムを指定できます。 | |
ContentObject
パラメーター | タイプ | 必須 | 説明 | 例 |
text | String | いいえ | テキスト情報。 | |
image | String | いいえ | イメージ情報。URL または Base64 エンコードされたデータをサポートします。
| または |
応答パラメーター
パラメーター | タイプ | 説明 | 例 |
result.embeddings | List | リクエストに対するアルゴリズムの出力。これはオブジェクトの配列です。各オブジェクトには、入力配列のアイテムに対応する出力が含まれます。 | |
result.embeddings[].index | Int | 入力配列内の対応するアイテムのインデックス。 | 0 |
result.embeddings[].embedding | List[Double] | ベクトル化された結果。 | [0.003143,0.009750,omitted,-0.017395] |
cURL リクエストの例
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer Your-API-KEY" \
"http://****-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/multi-modal-embedding/ops-m2-encoder" \
-d '{
"input":[
{
"image":"http://***/a.jpg"
}
]
}'応答の例
成功応答の例
{
"request_id": "B4AB89C8-B135-****-A6F8-2BAB801A2CE4",
"latency": 38,
"usage": {
"image":1,
"token_count":28
},
"result": {
"embeddings": [
{
"index": 0,
"embedding": [
-0.033447265625,
0.10577392578125,
-0.0015211105346679688,
-0.044189453125,
...
0.004688262939453125,
-4.5239925384521484E-5
]
}
]
}
}エラー応答の例
リクエストが失敗した場合、応答の code フィールドと message フィールドにエラーの原因が示されます。
{
"request_id": "651B3087-8A07-****-B931-9C4E7B60F52D",
"latency": 0,
"code": "InvalidParameter",
"message": "JSON parse error: Cannot deserialize value of type `InputType` from String \"xxx\""
}ステータスコード
詳細については、「AI Search Open Platform のステータスコード」をご参照ください。