全部产品
Search
文档中心

OpenSearch:Impor data

更新时间:Jul 06, 2025

OpenSearch LLM-based Conversational Search Edition memungkinkan Anda mengimpor berbagai jenis data, termasuk data terstruktur, data tidak terstruktur, halaman web, dan tabel. Topik ini menjelaskan cara mengimpor data di konsol OpenSearch.

Struktur Data

Tabel utama menggunakan struktur data tetap dengan bidang-bidang berikut: score, id, title, category, url, content, dan timestamp.

Bidang

Tipe

Deskripsi

score

FLOAT

Skor dokumen.

id

LITERAL

ID unik dokumen.

title

TEXT

Judul dokumen.

category

LITERAL_ARRAY

Kategori dokumen.

url

LITERAL

URL dokumen.

content

TEXT

Isi dokumen.

timestamp

INT

Timestamp dokumen, yang menunjukkan kesegaran dokumen.

Catatan
  • Saat mengunggah data terstruktur, bidang score, title, category, url, dan timestamp bersifat opsional.

  • Bidang score dan timestamp relevan untuk pengambilan dokumen. Untuk informasi lebih lanjut tentang konfigurasi kedua bidang tersebut, lihat Parameter Pengambilan Dokumen.

  • Nilai bidang category dapat mencakup beberapa item yang dipisahkan dengan koma (,). Untuk informasi lebih lanjut, lihat Parameter Kustom.

Persiapan

  1. Masuk ke konsol OpenSearch.

  2. Di bilah navigasi atas, pilih wilayah tempat instance Anda berada. Di pojok kiri atas, pilih OpenSearch LLM-Based Conversational Search Edition.

  3. Di halaman Manajemen Instance, temukan instance yang ingin Anda kelola dan klik Manage di kolom Tindakan. Di panel sebelah kiri, pilih Configuration Center > Data Configuration, lalu pilih metode impor data sesuai kebutuhan bisnis Anda.

Unggah file

Klik Impor File. Panel Impor File akan muncul.

image

  • Data Tidak Terstruktur: Anda dapat mengunggah file dalam format DOC, DOCX, PDF, HTML, TXT, PPT, atau PPTX. Ukuran satu file tidak boleh melebihi 128 MB. Anda dapat mengunggah beberapa file sekaligus.

    Catatan

    Jika file Word berisi banyak gambar, disarankan untuk mengonversinya ke format PDF agar proses unggah lebih cepat.

  • Data Terstruktur: Anda dapat mengunggah file JSON atau Excel yang dikodekan dalam UTF-8. Ukuran satu file tidak boleh melebihi 128 MB. Anda dapat mengunggah beberapa file sekaligus. Klik Contoh Data untuk melihat format data.

    Catatan
    • Nama tabel dapat berisi huruf, angka, dan garis bawah (_), dengan panjang maksimal 20 karakter.

    • Nama bidang dapat berisi huruf dan garis bawah (_) serta tidak boleh dimulai dengan garis bawah (_). Panjang maksimalnya adalah 30 karakter.

    • Maksimal 30 bidang dalam setiap file Excel dapat diimpor dan diperiksa. Bidang tambahan akan diabaikan.

Anda dapat memanggil Push documents Operasi API untuk mendorong beberapa dokumen sekaligus.

Impor data dari halaman web

Klik Impor URL Halaman Web. Di tab Impor Halaman Web pada panel Impor URL Halaman Web, masukkan URL satu per baris, lalu klik Impor.

网页链接.png

Impor data dari situs web

  1. Klik Impor URL Halaman Web. Di panel Impor URL Halaman Web, klik tab Impor Situs Web. Di tab Impor Situs Web, klik Buat Tugas. Di kotak dialog Buat Tugas, konfigurasikan parameter URL Situs Web dan Kategori, lalu klik OK. Anda dapat menyesuaikan parameter Penyaringan URL, Pemilih XPath, dan Pemilih CSS sesuai kebutuhan bisnis Anda.

    新建任务.png

    Catatan
    • URL Situs Web: URL situs web yang isinya ingin Anda impor.

    • Kategori: kategori konten yang akan diimpor.

    • Penyaringan URL: aturan penyaringan URL. Aturan default adalah ekspresi reguler yang dimulai dengan URL situs web. Sebagai contoh, jika URL situs web adalah http://www.abc.com/, ekspresi reguler defaultnya adalah http://www\.abc\.com/.*.

    • Pemilih XPath: pemilih yang menentukan elemen-elemen yang akan diimpor. Sebagai contoh, jika Anda ingin mengimpor konten di tag div, atur parameter ini menjadi //div.

    • Pemilih CSS: pemilih yang menentukan elemen-elemen yang akan diimpor. Sebagai contoh, jika Anda ingin mengimpor data dalam format <div class="content">Konten Halaman Web</div>, atur parameter ini menjadi div.content.

    • URL yang diakhiri dengan .png, .jpg, atau .jpeg tidak didukung.

  2. Setelah mengonfigurasi parameter, klik OK. Anda dapat melihat jumlah halaman web yang telah di-crawl. Kemudian, klik OK untuk mengimpor isi situs web.

    导入完成.png

Impor tabel

Untuk informasi lebih lanjut, lihat Implementasikan Pencarian Percakapan Berbasis Tabel.

Kueri data

Setelah dokumen diunggah, Anda dapat melihat jumlah total dokumen di bagian Kueri Data. Anda juga dapat melakukan tes Q&A di halaman Tes Q&A. Selain itu, Anda dapat melihat atau menghapus dokumen berdasarkan kunci utama.

  1. Lihat Dokumen

    Pilih bidang id dari daftar drop-down, masukkan ID dokumen, lalu klik ikon Cari untuk menemukan dokumen. Setelah itu, Anda dapat melihat detail dokumen.

    image.png

  2. Hapus Dokumen

    Pilih bidang id dari daftar drop-down, masukkan ID dokumen, lalu klik ikon Cari untuk menemukan dokumen. Pilih Lainnya > Hapus di kolom Tindakan untuk menghapus dokumen.

    Jika kapasitas penyimpanan tidak mencukupi, dokumen gagal dihapus. Anda perlu memperluas kapasitas penyimpanan terlebih dahulu.

    image.png

  3. Edit Dokumen

    Pilih bidang id dari daftar drop-down, masukkan ID dokumen, lalu klik ikon Cari untuk menemukan dokumen. Klik Edit di kolom Tindakan untuk memodifikasi bidang yang dapat diedit untuk dokumen.

    image.png

Catatan Penggunaan

  • Nilai kunci utama setiap dokumen bersifat unik. Jika dua dokumen memiliki nilai kunci utama yang sama, dokumen yang lebih baru akan menimpa dokumen yang diimpor sebelumnya.

  • Ukuran data terstruktur yang Anda unggah sekaligus tidak boleh melebihi 2 MB.

  • Ukuran file data tidak terstruktur yang Anda unggah tidak boleh melebihi 128 MB.

  • Setelah data diunggah, waktu tunggu sebelum Anda dapat mengkueri data bergantung pada jumlah data yang harus diperbarui.