Panduan ini memandu Anda melalui konfigurasi instans OpenSearch Vector Search Edition untuk secara otomatis mengonversi teks mentah menjadi vektor dan menjalankan kueri kesamaan semantik terhadapnya. Setelah selesai, instans Anda akan menerima input teks dan mengembalikan hasil yang sesuai secara semantik tanpa memerlukan langkah vektorisasi manual.
Prasyarat
Sebelum memulai, pastikan Anda telah:
Membeli instans OpenSearch Vector Search Edition. Untuk detailnya, lihat Membeli instans OpenSearch Vector Search Edition.
Menyiapkan sumber data — MaxCompute, API, atau Object Storage Service (OSS).
Cara kerja
Setelah pembelian, instans dimulai dalam status Pending Configuration tanpa data. OpenSearch secara otomatis men-deploy pekerja Query Result Searcher (QRS) dan pekerja Searcher sesuai dengan spesifikasi yang dibeli.
Agar instans dapat dicari, selesaikan langkah-langkah berikut secara berurutan:
Konfigurasikan informasi tabel dasar
Tambahkan sumber data
Konfigurasikan bidang
Konfigurasikan skema indeks
Konfirmasi pembuatan
Verifikasi status build
Jalankan uji kueri
Konfigurasi instans
Langkah 1: Konfigurasi informasi tabel dasar
Di panel kiri pada halaman detail instans, klik Table Management. Di halaman Table Management, klik Add Table.
Pada langkah Basic Table Information wizard Create, konfigurasikan parameter berikut, lalu klik Next.

| Parameter | Deskripsi |
|---|---|
| Table name | Nama kustom untuk tabel. |
| Data shards | Jumlah shard dalam tabel. Masukkan bilangan bulat positif dari 1 hingga 256. Sharding mempercepat pengindeksan penuh dan meningkatkan performa kueri tunggal. Jika terdapat beberapa tabel indeks dalam instans yang sama, semua tabel harus memiliki jumlah shard yang sama — atau tepat satu tabel boleh memiliki satu shard sementara yang lain memiliki jumlah yang sama. |
| Number of resources for data updatesPenagihan Edisi Pencarian Vektor di Alibaba Cloud International Website (www.alibabacloud.com) | Jumlah sumber daya untuk pembaruan data. Setiap instans mencakup kuota gratis sebanyak 2 sumber daya per sumber data (masing-masing 4 core CPU dan 8 GB memori). Sumber daya tambahan di luar kuota dikenai biaya. Untuk detailnya, lihat Ikhtisar penagihan. |
| Scenario template | Templat yang digunakan untuk membuat tabel. Untuk panduan ini, pilih Vector: Semantic Search for Text. Opsi lain: Common Template, Vector: Image Search. |
| Data processing | Atur ke Convert Raw Data to Vector Data untuk mengaktifkan konversi teks-ke-vektor otomatis. |
Langkah 2: Tambahkan sumber data
Pada langkah Data Synchronization, tambahkan sumber data. Panduan ini menggunakan MaxCompute + API sebagai Sumber Data Penuh.
Konfigurasikan parameter Project, AccessKey, AccessKey Secret, Table, dan Partition Key. Atur Automatic Reindexing ke Yes atau No, lalu klik Check. Jika sumber data lolos validasi, klik Next.
Untuk jenis sumber data lainnya:
Langkah 3: Konfigurasi bidang
OpenSearch telah menetapkan bidang berdasarkan templat skenario. Saat Anda memilih Vector: Semantic Search for Text, empat bidang berikut telah ditetapkan:
| Bidang | Peran | Tipe |
|---|---|---|
id | Primary key | INT atau STRING |
vector | Bidang vektor | FLOAT (multi-nilai) |
cate_id | Kategori | — |
vector_source_text | Sumber penyematan kata | text |
Sebelum mengonfigurasi bidang, perhatikan batasan berikut untuk bidang vector_source_text:Byte limit: Nilai bidang dibatasi hingga 128 byte. Jika melebihi 128 byte, hanya 128 byte pertama yang digunakan untuk prediksi vektor.
Batas token: Teks juga tunduk pada batas token internal. Setiap karakter Cina, kata bahasa Inggris, atau tanda baca dihitung sebagai satu token. Teks yang melebihi batas token dipotong menjadi N token pertama.
Delimiter: Bidang vektor bersifat multi-nilai, dengan nilai dipisahkan oleh delimiter HA3 (^], dikodekan sebagai\x1Ddalam format UTF). Delimiter kustom juga diterima.
Pada langkah Field Configuration, konfigurasikan bidang sesuai aturan berikut:
Bidang primary key (`id`): Wajib. Atur Tipe ke INT atau STRING dan pilih kolom Primary Key.
Bidang vektor (`vector`): Wajib. Atur Tipe ke FLOAT dan pilih kolom Vector Field.
Bidang `vector_source_text`: Pilih Require Embedding. OpenSearch akan secara otomatis mengonversi konten teksnya menjadi vektor sebelum pengindeksan.
Field order for the vector index: Konfigurasikan bidang dalam urutan berikut: primary key → namespace (opsional) → bidang vektor.
Bidang yang hilang atau kosong: Bidang numerik default ke
0; bidang STRING default ke string kosong. Default kustom didukung.
Pilih model vektorisasi untuk `vector_source_text`

Jika Anda tidak yakin model mana yang harus dipilih, mulailah dengan model garis dasar standar untuk bahasa konten Anda:
Konten Cina:
ops-text-embedding-000(768 dimensi)Konten Inggris:
ops-text-embedding-en-000(768 dimensi)
Semua model yang tersedia:
| Model | Bahasa | Dimensi |
|---|---|---|
ops-text-embedding-000 | Cina (teks pendek) | 768 |
ops-text-embedding-en-000 | Inggris (teks pendek) | 768 |
ops-text-embedding-1024-000-20231001 | Cina (ditingkatkan) | 1.024 |
ops-text-embedding-512-000-20231001 | Cina (ditingkatkan) | 512 |
ops-text-embedding-128-000-20231001 | Cina (ditingkatkan) | 128 |
ops-text-embedding-512-en-000-20231001 | Inggris (ditingkatkan) | 512 |
ops-text-embedding-128-en-000-20231001 | Inggris (ditingkatkan) | 128 |
Tipe Data tetap diatur ke text dan tidak dapat diubah.
Langkah 4: Konfigurasi skema indeks
Indeks vektor
OpenSearch secara otomatis membuat indeks untuk bidang primary key dan bidang vektor. Nama indeks sesuai dengan nama bidang. Konfigurasikan hanya indeks vektor di Konsol.

Bidang primary key dan bidang vektor wajib. Bidang namespace opsional. Jika versi mesin adalah vector_service_1.0.2 atau lebih lama, bidang namespace tidak boleh bertipe STRING. Jika versi mesin adalah vector_service_1.0.2 atau lebih baru, tidak ada batasan tipe bidang.
Untuk konfigurasi lanjutan, atur Vector Dimension ke 768 dan biarkan semua pengaturan lainnya tetap seperti semula.

Langkah 5: Konfirmasi pembuatan
Pada langkah Confirm, tinjau konfigurasi Anda dan klik Confirm.

Langkah 6: Verifikasi status build
Di panel kiri, klik Change History. Di tab Data Source Changes, lihat semua mesin keadaan hingga (FSM) yang terkait dengan proses pembuatan tabel, pembuatan indeks, dan pengindeksan ulang data penuh. Lanjutkan ke pengujian kueri setelah build mesin pencari selesai.
Langkah 7: Jalankan uji kueri
Jalankan kueri berbasis prediksi untuk memastikan instans berfungsi. Untuk sintaks kueri lengkap, lihat Prediction-based query dalam topik "Query data".
Contoh hasil:
{
"totalCount": 5,
"result": [
{"id": 5, "score": 1.103209137916565},
{"id": 3, "score": 1.1278988122940064},
{"id": 2, "score": 1.1326735019683838}
],
"totalTime": 242.615
}| Bidang | Deskripsi |
|---|---|
totalCount | Jumlah total dokumen yang sesuai dalam indeks. |
result | Dokumen yang dikembalikan, diurutkan berdasarkan skor relevansi. |
id | Nilai primary key dari dokumen yang sesuai. |
score | Skor kesamaan semantik. Nilai yang lebih tinggi menunjukkan kecocokan yang lebih dekat. |
totalTime | Total waktu pemrosesan kueri. |
Langkah selanjutnya
Referensi sintaks kueri:
Operasi SDK:
Kueri data melalui SDK: Query data
Tambah atau hapus dokumen melalui SDK: Update data