全部产品
Search
文档中心

OpenSearch:Sumber data OSS

更新时间:Jul 06, 2025

Aktifkan OSS

image.png

  1. Aktifkan Object Storage Service (OSS).

  2. Buat Bucket di Konsol OSS.

  3. Unggah Objek ke Bucket OSS.

Konfigurasikan sumber data OSS

  1. Masuk ke Konsol OpenSearch. Di pojok kiri atas, pilih OpenSearch Retrieval Engine Edition. Pada halaman Instances, temukan instance yang ingin Anda kelola dan klik Manage di kolom Actions.

  2. Di panel sisi kiri, pilih Configuration Center > Data Source. Pada halaman Data Source, klik Add Data Source. Di panel Add Data Source, atur parameter Data Source Type ke OSS, dan konfigurasikan parameter Data Source Name, OSS Path, dan Bucket. Lalu, klik Verify.

Parameter:

  • Data Source Name: Nama kustom untuk sumber data OSS. Nama harus dimulai dengan huruf dan dapat berisi huruf, angka, serta garis bawah (_).

  • OSS Path: Jalur yang digunakan untuk mengakses objek OSS.

  • Bucket: Nama Bucket OSS.

Catatan
  • Jalur OSS yang ditentukan harus berisi opensearch dan tidak boleh berisi karakter khusus berikut: tanda sama dengan (=), ampersand (&), dan tanda tanya (?). Jika tidak, data tidak dapat dibaca.

  • Untuk membuat jalur OSS, lakukan operasi berikut: Buka halaman Buckets di Konsol OSS, klik nama Bucket OSS yang telah dibuat dalam daftar bucket, lalu klik Create Directory. Di panel Create Directory, konfigurasikan parameter Directory Name. Dalam contoh ini, /opensearch_index_data/ dibuat.

image.png

  • Untuk mendapatkan nama Bucket OSS yang telah dibuat, lakukan operasi berikut: Buka halaman Buckets di Konsol OSS, dan lihat nama bucket di kolom Bucket Name.

image.png

  1. Buat Tabel Indeks.

    1. Setelah sumber data OSS dikonfigurasikan, pilih Configuration Center > Index Schema di panel sisi kiri. Pada halaman Index Schema, klik Create Index Table.

    2. Di halaman konfigurasi, masukkan nama tabel indeks kustom dan pilih sumber data OSS yang telah Anda konfigurasikan.

Dalam contoh ini, bidang pk dan embeddings dikonfigurasikan. Untuk informasi lebih lanjut tentang data sampel, lihat oss_test.txt.

CMD=add
pk=999000
embeddings=0.00.0039257140.0098142860.0039257140.00
pk=999000
embeddings=0.00.0039257140

Untuk informasi lebih lanjut tentang skema indeks, lihat bagian "File data untuk pengindeksan" dari topik ini.

  1. Di panel sisi kiri, pilih O&M Center > O&M Management. Pada halaman O&M Management, klik Reindexing. Di panel Reindexing, konfigurasikan parameter untuk memicu reindexing untuk sumber data OSS.

Setelah reindexing selesai, Anda dapat melakukan uji kueri.

File data untuk pengindeksan

Sebuah file berfungsi sebagai sumber data untuk pengindeksan. File tersebut harus dikodekan dalam format UTF-8. Bagian ini menjelaskan format input standar untuk file data pengindeksan.

  • Informasi berikut menunjukkan isi file data lengkap bernama standard_sample.data:

CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=Alibaba Cloud Computing Co., Ltd.^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^
CMD=delete^_
PK=12345321^_CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=Alibaba Cloud Computing Co., Ltd.^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^
CMD=delete^_
PK=12345321^_

File data ini berisi perintah add dan delete. Setiap perintah terdiri dari beberapa baris, dan setiap baris adalah pasangan key-value. Perintah dipisahkan oleh '^^\n', pasangan key-value dipisahkan oleh '^_\n', dan nilai dipisahkan oleh '^]'. Tabel dan daftar berikut menjelaskan pemisah file dan format perintah.

  • Pemisah File

Pengkodean C++

Kode ASCII

Kode ASCII dalam notasi heksadesimal

Deskripsi

Pola tampilan di Emacs atau Vi

Metode input di Emacs

Metode input di Vi

"\x1F\n"

1F0A

Pemisah pasangan key-value.

^_ (diikuti dengan line break)

C-q C-7

C-v C-7

"\x1E\n"

1E0A

Pemisah perintah.

^^ (diikuti dengan line break)

C-q C-6

C-v C-6

"\x1D"

1D

Pemisah multi-nilai.

^]

C-q C-5

C-v C-5

"\x1C"

1C

Pengidentifikasi bobot bagian.

^\

C-q C-4

C-v C-4

"\x1D"

1D

Pemisah bagian.

^]

C-q C-5

C-v C-5

"\x03"

03

Pemisah bidang dokumen anak.

^C

C-q C-c

C-v C-c

  • Format Perintah

    • add

      Perintah add digunakan untuk menambahkan data ke skema indeks.

      Baris pertama perintah add harus CMD=add, yang diikuti oleh bidang dokumen. Urutan bidang bisa sama dengan urutan bidang dalam skema indeks. Semua bidang yang ditampilkan dalam perintah add harus ditentukan dalam skema indeks.

CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=Alibaba Cloud Computing Co., Ltd.^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^CMD=add^_
PK=12345321^_
url=http://www.aliyun.com/index.html^_
title=Alibaba Cloud Computing Co., Ltd.^_
body=xxxxxx xxx^_
time=3123423421^_
multi_value_field=1234^]324^]342^_
bidwords=mp3^\price=35.8^Ptime=13867236221^]mp4^\price=32.8^Ptime=13867236221^_
^^

  • delete

    Perintah delete digunakan untuk menghapus data dari skema indeks.

    Baris pertama perintah delete harus CMD=delete, yang diikuti oleh bidang yang didefinisikan sebagai bidang kunci utama dalam skema indeks,

    dan bidang yang digunakan untuk partisi hash. Jika kedua bidang tersebut sama, Anda hanya perlu menentukan satu bidang.

CMD=delete^_
PK=12345321^_
^^CMD=delete^_
PK=12345321^_
^^

Hapus sumber data OSS

Pada halaman Data Source, temukan sumber data yang ingin Anda hapus dan klik Delete di kolom Actions.

Catatan:

  • Setelah sumber data dihapus, sumber data tersebut tidak dapat dipulihkan. Lanjutkan dengan hati-hati.

  • Jika tabel indeks dibuat untuk sumber data OSS yang ingin Anda hapus, Anda harus menghapus tabel indeks sebelum menghapus sumber data OSS.

Catatan penggunaan

  • Anda harus mengaktifkan OSS di wilayah yang sama dengan instance OpenSearch Retrieval Engine Edition yang dibeli.

  • OpenSearch Retrieval Engine Edition tidak mendukung Bucket OSS Anywhere.

  • Saat Anda mengonfigurasikan sumber data OSS, sistem secara otomatis membuat peran terkait layanan bernama AliyunServiceRoleForSearchEngine. Jika peran terkait layanan sudah ada, sistem tidak akan membuat peran lain. OpenSearch menggunakan peran ini untuk mengakses sumber daya cloud Anda untuk mengimplementasikan fitur terkait.