Membeli sebuah instans
Untuk informasi lebih lanjut, lihat Membeli Instans OpenSearch Vector Search Edition.
Konfigurasi instans
Di halaman detail instans yang dibeli, instans berada dalam status Pending Configuration. Sistem secara otomatis menerapkan instans yang tidak berisi data. Jumlah dan spesifikasi pekerja Query Result Searcher (QRS) serta pekerja Searcher sama dengan pekerja QRS dan pekerja Searcher yang Anda beli. Sebelum menggunakan instans untuk pencarian, lakukan langkah-langkah berikut. Setelah pengindeksan ulang selesai, Anda dapat menggunakan instans untuk melakukan kueri.
1. Konfigurasikan informasi dasar tentang tabel
Di panel sisi kiri pada halaman detail instans, klik Manajemen Tabel. Di halaman Manajemen Tabel, klik Tambah Tabel. Pada langkah Informasi Dasar Tabel dari wizard Pembuatan, konfigurasikan parameter Nama Tabel, Data Sharding, Jumlah Sumber Daya untuk Pembaruan Data, dan Template Skenario. Dalam topik ini, parameter Template Skenario diatur ke Vector: Semantic Search for Text, dan parameter Pemrosesan Data diatur ke Convert Raw Data to Vector Data. Lalu, klik Selanjutnya.

Parameter:
Nama Tabel: Nama tabel. Anda dapat menyesuaikan nama tabel sesuai kebutuhan.
Data Shards: Jumlah shard data yang terkandung dalam tabel. Masukkan bilangan bulat positif dalam rentang 1 hingga 256. Anda dapat melakukan sharding untuk mempercepat pengindeksan penuh dan meningkatkan performa satu kueri. Jika Anda membuat beberapa tabel indeks dalam instans OpenSearch yang ada, pastikan bahwa tabel indeks tersebut mengandung jumlah shard yang sama. Atau, pastikan bahwa setidaknya satu tabel indeks mengandung satu shard dan tabel indeks lainnya mengandung jumlah shard yang sama.
Jumlah Sumber Daya untuk Pembaruan Data: Jumlah sumber daya yang digunakan untuk pembaruan data. Secara default, OpenSearch menyediakan kuota gratis dua sumber daya untuk pembaruan data untuk setiap sumber data dalam instans OpenSearch Vector Search Edition. Setiap sumber daya terdiri dari 4 inti CPU dan 8 GB memori. Anda akan dikenakan biaya untuk sumber daya yang melebihi kuota gratis. Untuk informasi lebih lanjut, lihat Billing Overview of OpenSearch Vector Search Edition for the international site (alibabacloud.com).
Template Skenario: Template yang digunakan untuk membuat tabel. Nilai valid: Common Template, Vector: Image Search, dan Vector: Semantic Search for Text.
2. Menambahkan sumber data
Pada langkah Sinkronisasi Data, tambahkan sumber data. Anda dapat menambahkan sumber data MaxCompute atau sumber data API. Dalam contoh ini, MaxCompute + API dipilih sebagai Full Data Source. Konfigurasikan parameter Project, AccessKey, AccessKey Secret, Table, dan Partition Key, atur parameter Pengindeksan Ulang Otomatis ke Ya atau Tidak, lalu klik Periksa. Jika informasi sumber data lolos pemeriksaan, klik Selanjutnya.
Untuk informasi lebih lanjut tentang sumber data MaxCompute, lihat Buat Tabel untuk Sumber Data MaxCompute.
Untuk informasi lebih lanjut tentang sumber data API, lihat Buat Tabel untuk Sumber Data API.
Untuk informasi lebih lanjut tentang sumber data Object Storage Service (OSS), lihat Sumber Data OSS + API.
3. Konfigurasikan bidang
OpenSearch menyediakan bidang preset yang relevan berdasarkan template skenario yang Anda pilih dan secara otomatis mengimpor semua bidang dari sumber data ke daftar bidang.
Pada langkah Konfigurasi Bidang, konfigurasikan bidang. Jika Anda mengatur parameter Template Skenario ke Vector: Semantic Search for Text di langkah sebelumnya, OpenSearch mengatur id sebagai bidang kunci utama, vector sebagai bidang vektor, cate_id sebagai bidang kategori, dan vector_source_text sebagai bidang tempat Anda ingin melakukan penyematan kata.
Catatan:
Bidang kunci utama dan vektor diperlukan. Untuk bidang kunci utama, Anda harus mengatur parameter Type ke INT atau STRING dan memilih kolom Primary Key. Untuk bidang vektor, Anda harus mengatur parameter Type ke FLOAT dan memilih kolom Vector Field.
Secara default, bidang vektor adalah bidang multi-nilai tipe FLOAT, dan beberapa nilai dari bidang vektor dipisahkan oleh delimeter HA3 (^]). Delimeter ini dikodekan sebagai \x1D dalam format UTF. Anda juga dapat memasukkan delimeter multi-nilai kustom.
Pilih Require Embedding untuk bidang vector_source_text tempat Anda ingin melakukan penyematan kata.
Nilai dari bidang vector_source_text bisa mencapai panjang maksimum 128 byte. Jika panjang nilai melebihi 128 byte, hanya 128 byte pertama yang disimpan untuk prediksi vektor.
Saat mengonfigurasi indeks vektor, Anda harus menentukan bidang dalam urutan bidang kunci utama, bidang namespace, dan bidang vektor. Bidang namespace bersifat opsional. Gambar di atas menunjukkan contohnya.
Jika suatu bidang tidak ada atau kosong dalam data sumber, sistem secara otomatis mengatur bidang ke nilai default. Secara default, bidang tipe numerik diatur ke 0 dan bidang tipe STRING diatur ke string kosong. Anda juga dapat menentukan nilai default kustom.
Konfigurasi Lanjutan dari Bidang vector_source_text

Model Vektorisasi: Model yang mengonversi teks pendek dalam bahasa Cina atau Inggris. Nilai valid:
ops-text-embedding-000: Model yang mengonversi teks Cina pendek menjadi vektor. Model ini menggunakan 768 dimensi.
ops-text-embedding-en-000: Model yang mengonversi teks Inggris pendek menjadi vektor. Model ini menggunakan 768 dimensi.
ops-text-embedding-1024-000-20231001: Model yang ditingkatkan yang mengonversi teks Cina menjadi vektor. Model ini menggunakan 1.024 dimensi.
ops-text-embedding-512-000-20231001: Model yang ditingkatkan yang mengonversi teks Cina menjadi vektor. Model ini menggunakan 512 dimensi.
ops-text-embedding-128-000-20231001: Model yang ditingkatkan yang mengonversi teks Cina menjadi vektor. Model ini menggunakan 128 dimensi.
ops-text-embedding-512-en-000-20231001: Model yang ditingkatkan yang mengonversi teks Inggris menjadi vektor. Model ini menggunakan 512 dimensi.
ops-text-embedding-128-en-000-20231001: Model yang ditingkatkan yang mengonversi teks Inggris menjadi vektor. Model ini menggunakan 128 dimensi.
Tipe Data: Tipe data. Nilai defaultnya adalah text dan tidak dapat diubah.
Catatan: Teks bisa mencapai panjang tertentu dalam jumlah token. Jika panjang teks melebihi jumlah token yang ditentukan, jumlah token pertama yang ditentukan disimpan untuk prediksi vektor. Satu karakter Cina, satu kata Inggris, atau satu tanda baca diakui sebagai satu token.
4. Konfigurasikan skema indeks
4.1. Indeks vektor
OpenSearch secara otomatis membuat indeks untuk bidang kunci utama dan bidang vektor. Nama indeks sama dengan nama bidang. Anda hanya perlu mengonfigurasi indeks vektor di konsol OpenSearch.

Bidang kunci utama dan vektor diperlukan. Bidang namespace bersifat opsional dan dapat dibiarkan kosong.
Bidang Namespace: Jika versi mesin instans adalah vector_service_1.0.2 atau lebih lama, bidang namespace tidak dapat bertipe STRING. Jika versi mesin instans adalah vector_service_1.0.2 atau lebih baru, tidak ada batasan yang diberlakukan pada tipe bidang.
Sistem secara otomatis mengonfigurasi parameter untuk konfigurasi lanjutan dari indeks vektor. Kami merekomendasikan Anda mengatur parameter Dimensi Vektor ke 768 dan tidak mengubah pengaturan parameter lainnya.

5. Konfirmasi pembuatan
Pada langkah Konfirmasi, klik Konfirmasi.

6. Lihat riwayat perubahan
Di panel sisi kiri pada halaman detail instans, klik Riwayat Perubahan. Di tab Perubahan Sumber Data pada halaman yang muncul, Anda dapat melihat semua mesin status terbatas (FSM) yang terkait dengan proses pembuatan tabel, pembuatan indeks, dan pengindeksan ulang untuk data penuh. Setelah mesin pencari dibangun, Anda dapat menjalankan tes kueri di instans.
7. Jalankan tes kueri
Kueri Sampel: Untuk informasi lebih lanjut, lihat bagian Kueri Berbasis Prediksi dari topik "Kueri Data".
Hasil Sampel:
{
"totalCount": 5,
"result": [
{
"id": 5,
"score": 1.103209137916565
},
{
"id": 3,
"score": 1.1278988122940064
},
{
"id": 2,
"score": 1.1326735019683838
}
],
"totalTime": 242.615
}result: Hasil yang dikembalikan.
Sintaksis
Untuk informasi lebih lanjut tentang sintaksis untuk kueri berbasis prediksi: Kueri Berbasis Prediksi
Untuk informasi lebih lanjut tentang sintaksis untuk kueri berbasis kunci utama: Kueri Berbasis Kunci Utama
Untuk informasi lebih lanjut tentang sintaksis untuk ekspresi filter: Ekspresi Filter
Gunakan SDK untuk melakukan kueri berbasis vektor
Gunakan SDK untuk melakukan kueri berbasis vektor atau kueri berbasis kunci utama. Untuk informasi lebih lanjut, lihat Kueri Data.
Gunakan SDK untuk menambah atau menghapus dokumen. Untuk informasi lebih lanjut, lihat Perbarui Data.