Prasyarat
Anda sudah familiar dengan MaxCompute, yang sebelumnya dikenal sebagai ODPS. Untuk informasi lebih lanjut tentang MaxCompute, lihat Apa itu OpenSearch?
Akun yang Anda gunakan untuk masuk ke konsol OpenSearch harus memiliki izin berikut pada tabel MaxCompute yang ingin dikonfigurasi: izin DESCRIBE, SELECT, dan DOWNLOAD pada tabel serta izin LABEL pada bidang tabel tersebut.
Anda dapat menjalankan pernyataan berikut untuk memberikan izin yang diperlukan kepada akun:
-- Tambahkan akun.
add user ****@aliyun.com;
-- Berikan izin yang diperlukan kepada akun.
GRANT describe,select,download ON TABLE table_xxx TO USER ****@aliyun.com
GRANT describe,select,download ON TABLE table_xxx_done TO USER ****@aliyun.com
-- Jika Anda mengaktifkan verifikasi izin bidang untuk tabel MaxCompute Anda, sistem akan mencegah Anda mengakses bidang dengan hak istimewa tinggi saat menarik data, dan indeks tidak dapat dibuat untuk tabel tersebut. Dalam hal ini, Anda harus memberikan izin kepada akun Anda untuk mengakses bidang.
-- Berikan izin pada seluruh proyek.
SET LABEL 3 to USER ****@aliyun.com
-- Berikan izin pada tabel tunggal.
GRANT LABEL 3 ON TABLE table_xxx(col1, col2) TO ****@aliyun.comBidang dalam tabel MaxCompute Anda harus bertipe data berikut: STRING, BOOLEAN, DOUBLE, BIGINT, dan DATETIME.
Untuk informasi lebih lanjut tentang pernyataan pembuatan tabel dan parameter untuk menambahkan sumber data MaxCompute, lihat Pernyataan CREATE TABLE untuk membuat tabel di sumber data MaxCompute.
Konfigurasikan sumber data MaxCompute
1. Masuk ke konsol OpenSearch. Di pojok kiri atas, pilih OpenSearch Vector Search Edition. Pada halaman Manajemen Instans, temukan instans yang ingin dikelola dan klik Kelola di kolom Aksi.

Di panel navigasi sebelah kiri, pilih Pusat Konfigurasi > Sumber Data. Klik Tambah Sumber Data. Di panel yang muncul, pilih MaxCompute sebagai jenis sumber data dan konfigurasikan parameter seperti Nama Sumber Data, Proyek, ID AccessKey, Rahasia AccessKey, Tabel, Kunci Partisi, dan Pengindeksan Ulang Otomatis.

3. Setelah parameter dikonfigurasikan, klik Periksa. Jika konfigurasi lolos pemeriksaan, klik OK.

4. Setelah sumber data dibuat, konfigurasikan skema indeks untuk membuat tabel indeks untuk sumber data. Untuk informasi lebih lanjut, lihat bagian "Tambahkan tabel indeks" di Skema indeks.
5. Setelah tabel indeks dikonfigurasikan, perbarui konfigurasi sumber data dan picu pengindeksan ulang untuk memastikan bahwa sumber data dapat digunakan oleh kluster online. Untuk informasi lebih lanjut, lihat Perbarui konfigurasi.
Deskripsi Parameter
Nama Sumber Data: nama sumber data. Tentukan nama dalam format InstanceName_CustomName.
Proyek, ID AccessKey, Rahasia AccessKey, Tabel, dan Kunci Partisi: parameter yang diperlukan untuk terhubung ke sumber data MaxCompute.
Pengindeksan Ulang Otomatis: menentukan apakah fitur pengindeksan ulang otomatis diaktifkan. Jika diaktifkan, sistem secara otomatis membangun ulang indeks untuk tabel indeks yang merujuk ke sumber data setiap kali mendeteksi perubahan data di sumber data.
Jika Anda mengaktifkan pengindeksan ulang otomatis, Anda harus membuat tabel done. Untuk informasi lebih lanjut, lihat bagian Konfigurasikan pengindeksan ulang otomatis.
Konfigurasikan pengindeksan ulang otomatis
Deskripsi tabel done: Jika Anda mengaktifkan pengindeksan ulang otomatis saat mengonfigurasi sumber data, OpenSearch Vector Search Edition secara otomatis membangun ulang indeks berdasarkan perubahan di tabel done.
Contoh: Saat mengonfigurasi sumber data MaxCompute, Anda menentukan mytable sebagai tabel MaxCompute dan ds=20220113 sebagai partisi. Setelah mengonfigurasi pengindeksan ulang untuk pertama kalinya, sistem menghasilkan partisi baru setiap hari. Setiap partisi baru berisi data lengkap dari tabel. Ketika partisi baru dihasilkan, OpenSearch Vector Search Edition diminta untuk memindai partisi baru dan secara otomatis membangun ulang indeks berdasarkan data di partisi tersebut. Untuk memenuhi persyaratan ini, Anda dapat menggunakan fitur pengindeksan ulang otomatis dan tabel done.
Prosedur
1. Aktifkan pengindeksan ulang otomatis saat membuat sumber data.

2. Konfigurasikan tabel done yang sesuai di MaxCompute. Jika nama tabel data adalah mytable dan nama kunci partisi tabel data adalah ds, nama tabel done adalah mytable_done dan nama kunci partisi tabel done adalah ds. Blok kode berikut menunjukkan cara kedua tabel ditampilkan di MaxCompute:
odps:sql:xxx> show tables;
InstanceId: xxx
SQL: .
ALIYUN$****@aliyun.com:mytable # Tabel yang menyimpan data lengkap sumber data.
ALIYUN$****@aliyun.com:mytable_done # Tabel done tempat data lengkap tabel sumber disinkronkan secara otomatis.Gambar berikut menunjukkan tabel done.

Anda dapat menjalankan pernyataan berikut untuk membuat tabel done:
create table mytable_done (attribute string) partitioned by (ds string);3. Saat partisi ds=20220114 dari tabel mytable dihasilkan, konfigurasikan tabel done untuk memicu OpenSearch Vector Search Edition membangun ulang indeks.
-- Tambahkan partisi.
alter table mytable_done add if not exists partition (ds="20220114");
-- Masukkan semaphore untuk mengaktifkan sinkronisasi data lengkap otomatis.
insert into table mytable_done partition (ds="20220114") select '{"swift_start_timestamp":1642003200}';Tabel done berisi konten berikut:
odps:sql:xxx> select * from mytable_done where ds=20220114 limit 1;
InstanceId: xxx
SQL: .
+-----------+----+
| attribute | ds |
+-----------+----+
| {"swift_start_timestamp":1642003200} | 20220114 |
+-----------+----+Setelah semaphore untuk sinkronisasi data lengkap otomatis dimasukkan ke dalam tabel done, OpenSearch Vector Search Edition memindai semaphore tabel done dan secara otomatis memicu tugas pengindeksan ulang.
Pastikan Anda menentukan setidaknya satu kunci partisi untuk tabel done. Nama kunci partisi tabel done harus sama dengan nama kunci partisi tabel data. Jika kunci partisi tabel data adalah ds, kunci partisi tabel done harus diatur ke ds.
Tabel done hanya berisi satu bidang tipe data STRING. Nama bidang harus attribute.
Partisi yang Anda tambahkan ke tabel done harus ada di tabel data. Misalnya, jika tabel data berisi partisi ds=20220114, ds=20220115, dan ds=20220116, Anda harus memilih partisi yang akan ditambahkan ke tabel done dari ketiga partisi tersebut.
Saat memasukkan data ke tabel done, nilai bidang attribute harus berupa string JSON, seperti
{"swift_start_timestamp":1642003200}. Timestamp menentukan offset awal untuk sinkronisasi penambahan real-time.
Modifikasi sumber data MaxCompute
Di halaman Sumber Data, temukan sumber data yang ingin dimodifikasi dan klik Modifikasi di kolom Aksi.

Di panel Modifikasi Sumber Data, ubah parameter seperti Proyek, ID AccessKey, Rahasia AccessKey, Tabel, dan Kunci Partisi.

Klik Periksa. Setelah konfigurasi yang dimodifikasi lolos pemeriksaan, klik OK untuk menyimpan modifikasi.
Setelah sumber data dimodifikasi, perbarui konfigurasi sumber data dan picu pengindeksan ulang untuk memastikan bahwa sumber data dapat digunakan oleh kluster online. Untuk informasi lebih lanjut, lihat Perbarui konfigurasi.
Kami merekomendasikan Anda menentukan partisi per jam dalam format yyyymmddhh, seperti 2022011314. Dengan cara ini, beberapa tugas pengindeksan penuh dapat dipicu untuk sumber data setiap hari.
Hapus sumber data MaxCompute
Di halaman Sumber Data, temukan sumber data yang ingin dihapus dan klik Hapus di kolom Aksi.

Setelah mengklik Hapus, sistem memeriksa apakah sumber data dirujuk oleh tabel indeks.
Jika sumber data tidak dirujuk oleh tabel indeks, klik OK untuk menghapus sumber data. Kemudian, perbarui konfigurasi sumber data dan bangun ulang indeks untuk memastikan bahwa sumber data dihapus.
Jika sumber data dirujuk oleh tabel indeks, sistem mengembalikan kesalahan berikut setelah Anda klik Hapus.

Anda harus menghapus tabel indeks yang merujuk ke sumber data sebelum menghapus sumber data. Untuk informasi lebih lanjut, lihat bagian "Hapus tabel indeks" di Skema indeks.
Catatan penggunaan
Saat memodifikasi sumber data, Anda tidak dapat mengubah nama sumber data.
Sumber data MaxCompute tidak mendukung tabel eksternal. Anda harus membuat tabel internal.
Tabel yang Anda tentukan saat membuat sumber data MaxCompute harus berupa tabel terpartisi.
Anda dapat menggunakan data lengkap tabel MaxCompute sebagai sumber data untuk membangun indeks di OpenSearch Vector Search Edition dan menggunakan sumber data API untuk mensinkronkan data tambahan secara real-time.