全部产品
Search
文档中心

OpenSearch:Penyematan multimodal

更新时间:Nov 11, 2025

Penyematan multimodal (multi-modal embedding) adalah layanan berbasis model bahasa besar multimodal (MLLM) Qwen2-VL yang mendukung input modalitas tunggal maupun gabungan multi-modalitas untuk memproses teks, citra, dan data campuran secara efisien.

Layanan

ID Model (service_id)

Dimensi

Deskripsi layanan

Batas QPS untuk panggilan API (Akun Alibaba Cloud dan Pengguna RAM)

M2-Encoder-Multimodal Vector Model

ops-m2-encoder

768 dimensi

Layanan multimodal bilingual Tiongkok-Inggris yang dilatih pada 6 miliar pasangan citra-teks (3 miliar dalam bahasa Tiongkok dan 3 miliar dalam bahasa Inggris) berdasarkan BM-6B. Model ini mendukung pengambilan lintas-modalitas, seperti pencarian teks-ke-gambar dan gambar-ke-teks, serta tugas klasifikasi gambar.

Catatan

Teks dan citra tidak dapat dimasukkan dalam dokumen yang sama.

10

Catatan

Untuk mengajukan peningkatan QPS, kirimkan tiket.

M2-Encoder-Large-Multimodal Vector Model

ops-m2-encoder-large

1.024 dimensi

Layanan multimodal bilingual Tiongkok-Inggris. Dibandingkan dengan model m2-encoder, model ini memiliki jumlah parameter yang lebih besar (1 miliar). Hal ini memberikan kemampuan ekspresi yang lebih kuat dan performa yang lebih tinggi dalam tugas-tugas multimodal.

Catatan

Teks dan citra tidak dapat dimasukkan dalam dokumen yang sama.

GME Multimodal Vector-Qwen2-VL-2B

ops-gme-qwen2-vl-2b-instruct

1.536 dimensi

Layanan penyematan multimodal yang dilatih berdasarkan MLLM Qwen2-VL. Layanan ini mendukung input modalitas tunggal maupun gabungan multi-modalitas untuk memproses teks, citra, dan tipe data campuran secara efisien.

Prasyarat

  • Informasi autentikasi telah diperoleh.

    Saat memanggil layanan AI Search Open Platform melalui API, Anda perlu mengautentikasi identitas pemanggil.

  • Alamat akses layanan telah diperoleh.

    Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi selengkapnya, lihat Dapatkan alamat pendaftaran layanan.

Deskripsi permintaan

Deskripsi umum

Ukuran badan permintaan tidak boleh melebihi 8 MB.

Metode permintaan

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/multi-modal-embedding/{service_id} 

  • host: Titik akhir layanan. Anda dapat memanggil layanan melalui Internet atau VPC. Untuk informasi selengkapnya, lihat Dapatkan titik akhir layanan.

    AI apikey截图.png

  • workspace_name: Nama ruang kerja, misalnya default.

  • service_id: ID layanan bawaan, misalnya ops-m2-encoder.

Parameter permintaan

Parameter header

Autentikasi kunci API

Parameter

Tipe

Wajib

Deskripsi

Contoh

Content-Type

String

Ya

Jenis permintaan: application/json

application/json

Authorization

String

Ya

Kunci API

Bearer OS-d1**2a

Parameter badan

Parameter

Tipe

Wajib

Deskripsi

Contoh

input

List[ContentObject]

Ya

Mendukung beberapa input. Anda dapat menentukan maksimal 32 item per permintaan.

[
  {
    "text":"Science and technology are the primary productive forces"
  },
  {
    "image":"http://***/a.jpg"
  }
]

ContentObject

Parameter

Tipe

Wajib

Deskripsi

Contoh

text

String

Tidak

Informasi teks.

{
  "text":"Text input"
}

image

String

Tidak

Informasi citra. Mendukung URL atau data yang dikodekan Base64.

  • Jika Anda menggunakan URL, URL tersebut harus dapat diakses.

  • Untuk menggunakan data Base64 untuk citra, teruskan data yang dikodekan ke parameter image dalam format data:image/{format};base64,{base64_image}. Komponen-komponen format tersebut dijelaskan sebagai berikut:

    image/{format}: Format citra lokal. Tetapkan berdasarkan format citra sebenarnya. Misalnya, jika citra dalam format JPG, tetapkan menjadi image/jpeg.

    base64_image: Data Base64 dari citra.

{
  "image":"http://xxxxx/a.jpg"
}

atau

{
  "image":"data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wCEAAoHCB..."
}

Parameter tanggapan

Parameter

Tipe

Deskripsi

Contoh

result.embeddings

List

Keluaran algoritma untuk permintaan. Ini merupakan larik objek. Setiap objek berisi keluaran yang sesuai dengan satu item dalam larik input.

[
    {
      "index": 0,
      "embedding": [0.003143,0.009750,omitted,-0.017395]
    },
    {}
]

result.embeddings[].index

Int

Indeks item yang sesuai dalam larik input.

0

result.embeddings[].embedding

List[Double]

Hasil vektorisasi.

[0.003143,0.009750,omitted,-0.017395]

Contoh permintaan cURL

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer Your-API-KEY" \
"http://****-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/multi-modal-embedding/ops-m2-encoder" \
-d '{
"input":[
  {
    "image":"http://***/a.jpg"
  }
]
}'

Contoh tanggapan

Contoh tanggapan sukses

{
    "request_id": "B4AB89C8-B135-****-A6F8-2BAB801A2CE4",
    "latency": 38,
    "usage": {
        "image":1,
        "token_count":28
    },
    "result": {
        "embeddings": [
            {
                "index": 0,
                "embedding": [
                   -0.033447265625,
                   0.10577392578125,
                   -0.0015211105346679688,
                   -0.044189453125,
                    ...
                   0.004688262939453125,
                   -4.5239925384521484E-5
                ]
            }
        ]
    }
}

Contoh tanggapan kesalahan

Jika permintaan gagal, bidang code dan message dalam tanggapan menunjukkan penyebab kesalahan.

{
    "request_id": "651B3087-8A07-****-B931-9C4E7B60F52D",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Cannot deserialize value of type `InputType` from String \"xxx\""
}

Kode status

Untuk informasi selengkapnya, lihat Kode status untuk AI Search Open Platform.