全部產品
Search
文件中心

OpenSearch:多模態向量

更新時間:Oct 15, 2025

多模態向量(multi-modal-embedding) 基於Qwen2-VL多模態大型語言模型(MLLMs)訓練的多模態向量服務,支援單一模態及多模態組合輸入,能夠高效處理文本、映像及組合類別型的資料。

服務名稱

模型ID(service_id)

維度

服務描述

API調用QPS限制(含主帳號與RAM子帳號)

M2-Encoder-多模態向量模型

ops-m2-encoder

768維

中英雙語多模態服務,基於60億圖文對資料(其中30億為中文資料,30億為英文資料)在BM-6B基礎上訓練而成。該模型支援圖文跨模態檢索(包括文本搜尋圖片和圖片搜尋文本),以及圖片分類任務。

說明

不支援同一個doc同時輸入text和image

10

說明

如需擴充QPS,請通過工單聯絡支援人員協助。

M2-Encoder-Large-多模態向量模型

ops-m2-encoder-large

1024維

中英雙語多模態服務,相比 m2-encoder 模型擁有更大的參數量,達到 1B(10億參數),從而在多模態任務處理中具備更強的表達能力和效能表現。

說明

不支援同一個doc同時輸入text和image

GME多模態向量-Qwen2-VL-2B

ops-gme-qwen2-vl-2b-instruct

1536維

基於 Qwen2-VL 多模態大型語言模型(MLLMs) 訓練的多模態向量服務,支援單一模態及多模態組合輸入,能夠高效處理文本、映像及組合類別型的資料。

前提條件

  • 擷取身份鑒權資訊

    通過API調用AI搜尋開放平台服務時,需要對調用者身份進行鑒權,如何擷取鑒權資訊請參見擷取API-KEY

  • 擷取服務調用地址

    支援通過公網和VPC兩種方式調用服務,詳情請參見擷取服務接入地址

請求說明

公用說明

請求body最大不能超過8MB。

請求方式

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/multi-modal-embedding/{service_id} 

  • host:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址

    AI apikey截圖.png

  • workspace_name:工作空間名稱,例如default。

  • service_id: 系統內建服務id,例如ops-m2-encoder。

請求參數

Header參數

API-KEY認證

參數

類型

必填

描述

樣本值

Content-Type

String

請求類型:application/json

application/json

Authorization

String

API-Key

Bearer OS-d1**2a

Body參數

參數

類型

必填

描述

樣本值

input

List[ContentObject]

支援多條資訊輸入,每次請求最多 32條。

[
  {
    "text":"科學技術是第一生產力"
  },
  {
    "image":"http://***/a.jpg"
  }
]

ContentObject

參數

類型

是否必填

描述

樣本值

text

String

文本資訊

{
  "text":"文本輸入"
}

image

String

圖片資訊,支援URL或者base64 encode後的資訊

  • 如果是URL,則必須是可以訪問的。

  • 圖片使用BASE64資料:將編碼後的BASE64資料傳遞給image參數,格式為data:image/{format};base64,{base64_image},其中:

    image/{format}:本地映像的格式。請根據實際的映像格式,例如圖片為jpg格式,則設定為image/jpeg。

    base64_image:映像的BASE64資料。

{
  "image":"http://xxxxx/a.jpg"
}

or

{
  "image":"..."
}

返回參數

參數

類型

描述

樣本值

result.embeddings

List

本次請求的演算法輸出內容,是一個由結構組成的數組,每一個數組中包含一個對應的輸入 text 的演算法輸出內容。

[
    {
      "index": 0,
      "embedding": [0.003143,0.009750,省略,-0.017395]
    },
    {}
]

result.embeddings[].index

Int

對應請求文本在input中的序號。

0

result.embeddings[].embedding

List[Double]

向量化結果。

[0.003143,0.009750,省略,-0.017395]

Curl請求樣本

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer 您的API-KEY" \
"http://****-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/multi-modal-embedding/ops-m2-encoder" \
-d '{
"input":[
  {
    "image":"http://***/a.jpg"
  }
]
}'

響應樣本

正常響應樣本

{
    "request_id": "B4AB89C8-B135-****-A6F8-2BAB801A2CE4",
    "latency": 38,
    "usage": {
        "image":1,
        "token_count":28
    },
    "result": {
        "embeddings": [
            {
                "index": 0,
                "embedding": [
                   -0.033447265625,
                   0.10577392578125,
                   -0.0015211105346679688,
                   -0.044189453125,
                    ...
                   0.004688262939453125,
                   -4.5239925384521484E-5
                ]
            }
        ]
    }
}

異常響應樣本

在訪問請求出錯的情況下,輸出的結果中會通過code和message指明出錯原因。

{
    "request_id": "651B3087-8A07-****-B931-9C4E7B60F52D",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Cannot deserialize value of type `InputType` from String \"xxx\""
}

狀態代碼說明

請參見AI搜尋開放平台狀態代碼說明