API penyematan multimodal - OpenSearch

Penyematan multimodal (multi-modal embedding) adalah layanan berbasis model bahasa besar multimodal (MLLM) Qwen2-VL yang mendukung input modalitas tunggal maupun gabungan multi-modalitas untuk memproses teks, citra, dan data campuran secara efisien.

Layanan	ID Model (service_id)	Dimensi	Deskripsi layanan	Batas QPS untuk panggilan API (Akun Alibaba Cloud dan Pengguna RAM)
M2-Encoder-Multimodal Vector Model	ops-m2-encoder	768 dimensi	Layanan multimodal bilingual Tiongkok-Inggris yang dilatih pada 6 miliar pasangan citra-teks (3 miliar dalam bahasa Tiongkok dan 3 miliar dalam bahasa Inggris) berdasarkan BM-6B. Model ini mendukung pengambilan lintas-modalitas, seperti pencarian teks-ke-gambar dan gambar-ke-teks, serta tugas klasifikasi gambar. Catatan Teks dan citra tidak dapat dimasukkan dalam dokumen yang sama.	10 Catatan Untuk mengajukan peningkatan QPS, kirimkan tiket.
M2-Encoder-Large-Multimodal Vector Model	ops-m2-encoder-large	1.024 dimensi	Layanan multimodal bilingual Tiongkok-Inggris. Dibandingkan dengan model m2-encoder, model ini memiliki jumlah parameter yang lebih besar (1 miliar). Hal ini memberikan kemampuan ekspresi yang lebih kuat dan performa yang lebih tinggi dalam tugas-tugas multimodal. Catatan Teks dan citra tidak dapat dimasukkan dalam dokumen yang sama.
GME Multimodal Vector-Qwen2-VL-2B	ops-gme-qwen2-vl-2b-instruct	1.536 dimensi	Layanan penyematan multimodal yang dilatih berdasarkan MLLM Qwen2-VL. Layanan ini mendukung input modalitas tunggal maupun gabungan multi-modalitas untuk memproses teks, citra, dan tipe data campuran secara efisien.

Prasyarat

Informasi autentikasi telah diperoleh.
Saat memanggil layanan AI Search Open Platform melalui API, Anda perlu mengautentikasi identitas pemanggil.
Alamat akses layanan telah diperoleh.
Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi selengkapnya, lihat Dapatkan alamat pendaftaran layanan.

Deskripsi permintaan

Deskripsi umum

Ukuran badan permintaan tidak boleh melebihi 8 MB.

Metode permintaan

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/multi-modal-embedding/{service_id}

host: Titik akhir layanan. Anda dapat memanggil layanan melalui Internet atau VPC. Untuk informasi selengkapnya, lihat Dapatkan titik akhir layanan.
workspace_name: Nama ruang kerja, misalnya default.
service_id: ID layanan bawaan, misalnya ops-m2-encoder.

Parameter permintaan

Parameter header

Autentikasi kunci API

Parameter	Tipe	Wajib	Deskripsi	Contoh
Content-Type	String	Ya	Jenis permintaan: application/json	application/json
Authorization	String	Ya	Kunci API	Bearer OS-d1**2a

Parameter badan

Parameter	Tipe	Wajib	Deskripsi	Contoh
input	List[ContentObject]	Ya	Mendukung beberapa input. Anda dapat menentukan maksimal 32 item per permintaan.	`[ { "text":"Science and technology are the primary productive forces" }, { "image":"http://***/a.jpg" } ]`

ContentObject

Parameter

Tipe

Wajib

Deskripsi

Contoh

text

String

Tidak

Informasi teks.

{
  "text":"Text input"
}

image

String

Tidak

Informasi citra. Mendukung URL atau data yang dikodekan Base64.

Jika Anda menggunakan URL, URL tersebut harus dapat diakses.
Untuk menggunakan data Base64 untuk citra, teruskan data yang dikodekan ke parameter image dalam format data:image/{format};base64,{base64_image}. Komponen-komponen format tersebut dijelaskan sebagai berikut:
image/{format}: Format citra lokal. Tetapkan berdasarkan format citra sebenarnya. Misalnya, jika citra dalam format JPG, tetapkan menjadi image/jpeg.
base64_image: Data Base64 dari citra.

{
  "image":"http://xxxxx/a.jpg"
}

atau

{
  "image":"data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wCEAAoHCB..."
}

Parameter tanggapan

Parameter	Tipe	Deskripsi	Contoh
result.embeddings	List	Keluaran algoritma untuk permintaan. Ini merupakan larik objek. Setiap objek berisi keluaran yang sesuai dengan satu item dalam larik input.	`[ { "index": 0, "embedding": [0.003143,0.009750,omitted,-0.017395] }, {} ]`
result.embeddings[].index	Int	Indeks item yang sesuai dalam larik input.	0
result.embeddings[].embedding	List[Double]	Hasil vektorisasi.	[0.003143,0.009750,omitted,-0.017395]

Contoh permintaan cURL

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer Your-API-KEY" \
"http://****-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/multi-modal-embedding/ops-m2-encoder" \
-d '{
"input":[
  {
    "image":"http://***/a.jpg"
  }
]
}'

Contoh tanggapan

Contoh tanggapan sukses

{
    "request_id": "B4AB89C8-B135-****-A6F8-2BAB801A2CE4",
    "latency": 38,
    "usage": {
        "image":1,
        "token_count":28
    },
    "result": {
        "embeddings": [
            {
                "index": 0,
                "embedding": [
                   -0.033447265625,
                   0.10577392578125,
                   -0.0015211105346679688,
                   -0.044189453125,
                    ...
                   0.004688262939453125,
                   -4.5239925384521484E-5
                ]
            }
        ]
    }
}

Contoh tanggapan kesalahan

Jika permintaan gagal, bidang code dan message dalam tanggapan menunjukkan penyebab kesalahan.

{
    "request_id": "651B3087-8A07-****-B931-9C4E7B60F52D",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Cannot deserialize value of type `InputType` from String \"xxx\""
}

Kode status

Untuk informasi selengkapnya, lihat Kode status untuk AI Search Open Platform.