Pemisahan Dokumen - OpenSearch

Workbench Pengembangan Pencarian AI mendukung API Layanan Pemisahan Dokumen, memungkinkan Anda mengintegrasikan layanan ini ke dalam alur kerja bisnis untuk meningkatkan efisiensi pengambilan atau pemrosesan.

Nama Layanan	ID Layanan	Deskripsi Layanan	Batas QPS untuk panggilan API (Akun Alibaba Cloud dan Pengguna RAM)
Layanan pemisahan dokumen-001	ops-document-split-001	Layanan ini menawarkan strategi pemotongan teks umum yang mampu membagi data terstruktur dalam format HTML, Markdown, dan TXT. Layanan ini memanfaatkan pemformatan paragraf dokumen, semantik teks, dan aturan yang telah ditentukan sebelumnya, serta dapat mengekstrak kode, gambar, dan tabel dari teks kaya.	2 Catatan Untuk mengajukan QPS lebih tinggi, ajukan tiket.

Dalam Retrieval-Augmented Generation (RAG), praktik umum adalah memproses teks menjadi vektor untuk penyimpanan di database vektor guna pengambilan selanjutnya. Layanan pemisahan membagi dokumen panjang menjadi segmen-segmen yang lebih kecil, sesuai dengan persyaratan panjang model penyematan teks untuk setiap segmen, sehingga memungkinkan representasi dokumen panjang sebagai vektor.

Penggunaan Dasar

Input berupa string teks biasa dengan konfigurasi tambahan, dan output berupa teks yang dibagi menjadi segmen, termasuk kemungkinan teks kaya. API mengembalikan empat daftar: chunks, nodes, rich_texts, dan sentences. Untuk menggunakan hasil pemisahan dokumen untuk penyematan, Anda cukup mengekstrak bidang konten dari daftar chunks dan rich_texts, tidak termasuk gambar. Lihat templat kode di pusat skenario. Kode Python adalah sebagai berikut:

# Ekstrak hasil chunk, perhatikan bahwa hanya ["chunks"] dan ["rich_texts"] kecuali gambar yang digunakan di sini
doc_list = []
for chunk in document_split_result.body.result.chunks:
    doc_list.append({"id": chunk.meta.get("id"), "content": chunk.content})

for rich_text in document_split_result.body.result.rich_texts:
    if rich_text.meta.get("type") != "image":
        doc_list.append({"id": rich_text.meta.get("id"), "content": rich_text.content})

Metode Penggunaan Lanjutan

Layanan pemisahan dokumen dapat membagi konten dokumen kompleks menjadi sejumlah token tertentu, membentuk struktur pohon dari beberapa node. Struktur ini digunakan selama fase pengambilan RAG untuk memperkaya konteks chunk yang diingat kembali, meningkatkan akurasi jawaban.

Logika layanan bertujuan untuk membagi teks berdasarkan struktur makro sebanyak mungkin. Jika chunk yang dihasilkan tidak memenuhi persyaratan panjang, layanan akan secara rekursif melanjutkan pembagian hingga semua chunk memenuhi persyaratan. Proses rekursif ini menghasilkan pohon chunk, dengan setiap node daun sesuai dengan hasil chunk aktual—node akhir.

Selama proses pengambilan vektor chunk, Anda dapat menggunakan informasi pohon chunk untuk melengkapi konteks. Sebagai contoh, Anda dapat menyertakan chunk lain dari level yang sama dengan chunk yang diingat kembali dalam batas jumlah token model untuk memastikan integritas informasi.

Sebagai contoh, diberikan segmen teks:

Setelah berhasil membuka layanan workbench pengembangan pencarian AI untuk pertama kali, sistem akan secara otomatis membuat ruang kerja default: Default.
Klik untuk membuat ruang. Masukkan nama ruang kerja kustom dan klik konfirmasi. Setelah mengklik untuk membuat API-KEY baru, sistem akan menghasilkan API-KEY. Di sini, pelanggan dapat mengklik tombol salin untuk menyalin dan menyimpan isi API-KEY.

Pohon chunk yang mungkin adalah sebagai berikut:

root (6b15)
  |
  +-- paragraph_node (557b)
       |
       +-- newline_node (ef4d)[Setelah berhasil membuka workbench pengembangan pencarian AI...Default.]
       |
       +-- newline_node (c618)
            |
            +-- sentence_node (98ce)[Klik untuk membuat ruang...klik konfirmasi.]
            |
            +-- sentence_node (922a)[Setelah mengklik untuk membuat API-KEY baru...klik tombol salin untuk menyalin dan menyimpan isi API-KEY.]

Mengingat panjang maksimum chunk, pohon chunk lengkap berisi dua jenis node: node akhir (dengan konten chunk) dan node perantara (node logis tanpa konten). Seluruh pohon dikembalikan sebagai daftar semua node (nodes), dan node akhir juga dikembalikan dalam daftar terpisah (chunks). Berikut adalah beberapa tipe node yang mungkin:

root: Node root.
paragraph_node: Node paragraf, mewakili pemisahan pada pemisah "\n\n" dan menandai posisi paragraf (karena tidak ada \n\n dalam contoh, hanya ada satu node perantara seperti itu).
newline_node: Node baris baru, mewakili pemisahan pada pemisah "\n". Dalam contoh, newline_node (ef4d) memenuhi persyaratan panjang chunk dan merupakan node akhir, sedangkan newline_node (c618) memerlukan pemisahan lebih lanjut dan merupakan node perantara.
sentence_node: Node kalimat, mewakili pemisahan pada pemisah "。".
subsentence_node: Node klausa, mewakili pemisahan pada pemisah "，" (tidak ditampilkan dalam contoh).

Untuk konten dalam format Markdown dan HTML, layanan chunk juga mengeluarkan teks kaya (rich_texts) secara terpisah. Sebagai contoh, tag <img>, <table>, dan <code> dalam HTML. Teks kaya ini diganti dengan placeholder seperti [image_0], <table>table_0</table>, dan <code>code_0</code> dalam teks asli. Sebagai contoh, URL gambar seperti "![image](www.example.com)" dalam konten input akan diganti dengan placeholder "[img_69646]", sesuai dengan chunk teks kaya dengan id=img_69646-0 dalam rich_texts (perhatikan akhiran penamaan id). Sementara itu, setiap blok teks kaya dikembalikan dalam bidang rich_texts. Desain ini memungkinkan pengingat kembali blok teks kaya secara terpisah dan penggabungan ulang mereka ke dalam teks asli sesuai kebutuhan. Setiap blok teks kaya sesuai dengan chunk node akhir dari chunk unik.

Untuk meningkatkan tingkat recall untuk kueri pendek, pelanggan dapat memilih untuk mengonfigurasi strategy.need_sentence=true. Dalam hal ini, teks asli dibagi berdasarkan kalimat dan dikembalikan dalam daftar sentences untuk recall independen. Untuk membantu ekspansi kalimat, setiap blok kalimat merupakan bagian dari chunk node akhir dari chunk unik. (Perhatikan bahwa daftar sentences ini tidak terkait dengan sentence_node yang disebutkan sebelumnya).

Chunk tebal, nodes, rich_texts, dan sentences di atas mewakili semua bidang yang dikembalikan oleh API. Penggunaan rinci dapat ditemukan dalam deskripsi parameter di bawah ini. Untuk kesederhanaan, setiap output chunk menggunakan versi sederhana dari sintaksis HTML.

Prasyarat

Informasi otentikasi diperoleh.
Ketika Anda memanggil layanan Platform Terbuka Pencarian AI menggunakan API, Anda perlu mengotentikasi identitas pemanggil.
Alamat akses layanan diperoleh.
Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Dapatkan alamat pendaftaran layanan.

Deskripsi Permintaan

Deskripsi Umum

Ukuran badan permintaan maksimum tidak boleh melebihi 8 MB.

Metode Permintaan

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/document-split/{service_id}

host: Titik akhir layanan, dapat diakses melalui Internet atau melalui VPC. Untuk informasi lebih lanjut, lihat Dapatkan alamat akses layanan.
workspace_name: Nama ruang kerja, seperti default.
service_id: ID layanan bawaan, seperti ops-document-split-001.

Parameter Permintaan

Parameter Header

Otentikasi API-KEY

Parameter	Tipe	Diperlukan	Deskripsi	Nilai contoh
Content-Type	String	Ya	Tipe permintaan: application/json	application/json
Authorization	String	Ya	API-Key	Bearer OS-d1**2a

Parameter Body

Parameter	Tipe	Diperlukan	Deskripsi	Nilai contoh
document.content	String	Ya	Konten teks biasa yang akan dipisahkan. Menurut standar JSON, lewati karakter berikut dalam bidang string: "\\, \", \/, \b, \f, \n, \r, \t". Perpustakaan JSON umum akan secara otomatis meloloskan karakter-karakter ini dalam string JSON yang dihasilkan.	"Judul\nBaris pertama\nBaris kedua"
document.content_encoding	String	Tidak	Tipe enkode konten utf8: Tipe enkode default	utf8
document.content_type	String	Tidak	Format konten html markdown text: Format default, kompatibel dengan teks biasa	html
strategy.type	String	Tidak	Strategi pemotongan paragraf default: Strategi default, yang membagi sesuai dengan format paragraf dokumen	default
strategy.max_chunk_size	Int	Tidak	Panjang maksimum chunk, dengan default 300.	300
strategy.compute_type	String	Tidak	Metode yang digunakan untuk menghitung panjang token: Metode default, dihitung menggunakan tokenizer dari model vektor ops-text-embedding-001	token
strategy.need_sentence	Boolean	Tidak	Menunjukkan apakah akan mengembalikan chunk tingkat kalimat untuk mengoptimalkan recall kueri pendek Secara default, ini diatur ke false Jika true dipilih, penggunaan token akan berlipat ganda	false

Catatan tambahan:

Parameter strategy.need_sentence mengaktifkan pemotongan tingkat kalimat, yang independen dari pemotongan paragraf. Pada dasarnya, ini mengembalikan setiap kalimat sebagai chunk individu. Mengaktifkan strategi ini memungkinkan recall simultan chunk pendek dan panjang, meningkatkan tingkat recall keseluruhan.

Parameter Respons

Parameter	Tipe	Deskripsi	Nilai contoh
request_id	String	Pengenal unik yang diberikan oleh sistem untuk panggilan API.	B4AB89C8-B135-****-A6F8-2BAB801A2CE4
latency	Float/Int	Durasi permintaan dalam milidetik.	10
usage	Object	Informasi penagihan terkait dengan panggilan ini.	"usage": { "token_count": 3072 }
usage.token_count	Int	Jumlah token yang digunakan.	3072
result.chunks	List(Chunk)	Daftar hasil chunk (node akhir), termasuk konten dan informasi identifikasi untuk setiap chunk.	[{ "content" : "xxx", "meta":{'parent_id':x, 'id': x, 'type': 'text'} }]
result.chunks[].content	String	Konten setiap chunk dalam daftar hasil.	"xxx"
result.chunks[].meta	Map	Informasi identifikasi untuk setiap chunk dalam daftar hasil, dengan semua bidang bertipe string parent_id: ID node induk chunk id: ID node chunk type: Jenis output konten untuk chunk, saat ini semuanya teks token: Jumlah token dalam chunk saat ini	{ 'parent_id': '3b94a18555c44b67b193c6ab4f**', 'id': 'c9edcb38fdf34add90d62f6bf5c6**, 'type': 'text' 'token': 10, }
result.rich_texts	List(RichText)	Form output untuk teks kaya. Ketika document.content_type diatur ke markdown atau html, elemen seperti gambar, kode, dan tabel dalam konten chunk diganti dengan placeholder teks kaya. Sebagai contoh, URL gambar seperti "![image](www.example.com)" dalam konten input akan diganti dengan placeholder "[img_69646]", sesuai dengan chunk teks kaya dengan id=img_69646-0 dalam rich_texts (perhatikan akhiran penamaan id) Catatan Form ini tidak didukung ketika document.content_type diatur ke text.	[{ "content" : "xxx", "meta":{'belonged_chunk_id':x, 'id': x, 'type': 'table'} }]
result.rich_texts[].content	String	Konten untuk setiap chunk teks kaya. Konten gambar adalah URL dan tidak akan dipisah, potensial melebihi max_chunk_size. Tabel dibagi menjadi header dan konten baris. Kode dibagi mirip dengan teks.	"<table><tr>\n<th>Tindakan</th>\n<th>Deskripsi</th>\n</tr><tr>\n<td>Sembunyikan komponen</td>\n<td>Sembunyikan komponen, tidak diperlukan parameter.</td>\n</tr></table>"
result.rich_texts[].meta	Map	Informasi identifikasi untuk setiap chunk teks kaya, dengan semua bidang bertipe string belonged_chunk_id: ID node chunk tempat teks kaya tersebut milik (setiap teks kaya harus dikaitkan dengan node chunk) id: ID teks kaya type: code/image/table token: Jumlah token dalam chunk saat ini (jumlah token untuk gambar tetap -1)	{ 'type': 'table', 'belonged_chunk_id': 'f0254cb7a5144a1fb3e5e024a3****b', 'id': 'table_2-1' 'token': 10 }
result.nodes	List(Node)	Daftar node dari pohon chunk.	[{'parent_id':x, 'id': x, 'type': 'text'}]
result.nodes[]	Map	Informasi untuk setiap node dalam pohon chunk, dengan semua bidang bertipe string id: ID node, yang sesuai dengan ID chunk jika node tersebut juga merupakan chunk type: string, yang mencakup paragraph_node, newline_node, sentence_node, subsentence_node, dan untuk HTML atau Markdown, mungkin mencakup <h1> hingga <h6>, mewakili pemisah berbeda parent_id: ID node induk	{ 'id': 'f0254cb7a5144a1fb3e5e024a3**b', 'type': 'paragraph_node', 'parent_id': 'f0254cb7a5144a1fb3e5e024a3**b' }
result.sentences (opsional)	List(sentence)	Ketika strategy.need_sentence diatur ke true dalam permintaan, ini mengembalikan daftar kalimat dari setiap chunk.	[{ "content" : "xxx", "meta":{'belonged_chunk_id':x, 'id': x, 'type': 'sentence'} }]
result.sentences[].content (opsional)	String	Konten setiap kalimat.	"123"
result.sentences[].meta (opsional)	Map	Informasi untuk setiap kalimat: belonged_chunk_id: ID node chunk tempat kalimat tersebut milik id: ID kalimat type: sentence, bidang statis token: Jumlah token dalam chunk saat ini	{ 'id': 'f0254cb7a5144a1fb3e5e024a3**b1-1', 'type': 'sentence', 'belonged_chunk_id': 'f0254cb7a5144a1fb3e5e024a3**b', 'token': 10 }

Contoh Permintaan Curl

curl -XPOST -H"Content-Type: application/json"  
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/document-split/ops-document-split-001"  
-H "Authorization: Bearer Your API-KEY"  
-d "{
    \"document\":{
          \"content\":\"Manfaat produk\\nEdisi algoritma industri\\nCerdas\\nModel algoritma kaya yang dapat disesuaikan terintegrasi, dikombinasikan dengan karakteristik pencarian dari berbagai industri, meluncurkan algoritma recall dan pengurutan industri untuk memastikan hasil pencarian yang lebih baik.\\n\\nFleksibel dan dapat disesuaikan\\nPengembang dapat menyesuaikan model algoritma yang sesuai, skema aplikasi, pemrosesan data, analisis query, pengurutan, dan konfigurasi lainnya berdasarkan karakteristik bisnis dan data mereka sendiri untuk memenuhi kebutuhan pencarian personal, meningkatkan tingkat klik hasil pencarian, mencapai iterasi bisnis yang cepat, dan sangat mempersingkat siklus permintaan online.\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nFungsi periferal kaya\\nMendukung serangkaian fungsi pencarian periferal seperti pencarian teratas, petunjuk, saran drop-down, dan laporan statistik, memudahkan pengguna untuk menampilkan dan menganalisis.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Kinerja Tinggi\\nThroughput tinggi\\nTabel tunggal mendukung puluhan ribu TPS tulis, pembaruan level detik.\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Vektor\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nMesin pencari terdistribusi, yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nMendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nAlgoritma vektor\\nMendukung pengambilan vektor dari berbagai data tidak terstruktur (seperti suara, gambar, video, teks, perilaku, dll.).\\n\\nQuery SQL\\nMendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna. Dalam sistem operasi dan pemeliharaan, kami telah mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.\\n\\nEdisi Mesin Recall\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nHavenask adalah mesin pencari terdistribusi yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nHavenask mendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nFitur kaya\\nHavenask mendukung berbagai jenis analyzer, berbagai tipe indeks, dan sintaks query yang kuat, yang dapat dengan baik memenuhi kebutuhan pengambilan pengguna. Kami juga menyediakan mekanisme plugin untuk memudahkan pengguna menyesuaikan logika pemrosesan bisnis mereka sendiri.\\n\\nQuery SQL\\nHavenask mendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna. Dalam sistem operasi dan pemeliharaan, kami segera akan mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.\",
          \"content_encoding\":\"utf8\",\"content_type\":\"text\"
    },
    \"strategy\":{
          \"type\":\"default\",
          \"max_chunk_size\":300,
          \"compute_type\":\"token\",
          \"need_sentence\":false
    }
}"

Contoh Respons

Contoh respons normal

{
	"request_id": "47EA146B-****-448C-A1D5-50B89D7EA434",
	"latency": 161,
	"usage": {
		"token_count": 800
	},
	"result": {
		"chunks": [
			{
				"content": "Manfaat produk\\nEdisi algoritma industri\\nCerdas\\nModel algoritma kaya yang dapat disesuaikan terintegrasi, dikombinasikan dengan karakteristik pencarian dari berbagai industri, meluncurkan algoritma recall dan pengurutan industri untuk memastikan hasil pencarian yang lebih baik.\\n\\nFleksibel dan dapat disesuaikan\\nPengembang dapat menyesuaikan model algoritma yang sesuai, skema aplikasi, pemrosesan data, analisis query, pengurutan, dan konfigurasi lainnya berdasarkan karakteristik bisnis dan data mereka sendiri untuk memenuhi kebutuhan pencarian personal, meningkatkan tingkat klik hasil pencarian, mencapai iterasi bisnis yang cepat, dan sangat mempersingkat siklus permintaan online.\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nFungsi periferal kaya\\nMendukung serangkaian fungsi pencarian periferal seperti pencarian teratas, petunjuk, saran drop-down, dan laporan statistik, memudahkan pengguna untuk menampilkan dan menganalisis.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Kinerja Tinggi\\nThroughput tinggi\\nTabel tunggal mendukung puluhan ribu TPS tulis, pembaruan level detik",
				"meta": {
					"parent_id": "dee776dda3ff4b078bccf989a6bd****",
					"id": "27eea7c6b2874cb7a5bf6c71afbf****",
					"type": "text"
				}
			},
			{
				"content": ".\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Vektor\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nMesin pencari terdistribusi, yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nMendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nAlgoritma vektor\\nMendukung pengambilan vektor dari berbagai data tidak terstruktur (seperti suara, gambar, video, teks, perilaku, dll.).\\n\\nQuery SQL\\nMendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna",
				"meta": {
					"parent_id": "dee776dda3ff4b078bccf989a6bd****",
					"id": "bf9fcfb47fcf410aa05216e268df****",
					"type": "text"
				}
			},
			{
				"content": ". Dalam sistem operasi dan pemeliharaan, kami telah mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.\\n\\nEdisi Mesin Recall\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nHavenask adalah mesin pencari terdistribusi yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nHavenask mendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nFitur kaya\\nHavenask mendukung berbagai jenis analyzer, berbagai tipe indeks, dan sintaks query yang kuat, yang dapat dengan baik memenuhi kebutuhan pengambilan pengguna. Kami juga menyediakan mekanisme plugin untuk memudahkan pengguna menyesuaikan logika pemrosesan bisnis mereka sendiri.\\n\\nQuery SQL\\nHavenask mendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna. Dalam sistem operasi dan pemeliharaan, kami segera akan mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.",
				"meta": {
					"parent_id": "dee776dda3ff4b078bccf989a6bd****",
					"id": "26ab0e4f7665487bb0a82c5a226a****",
					"type": "text"
				}
			}
		],
		"nodes": [
			{
				"id": "dee776dda3ff4b078bccf989a6bd****",
				"type": "root",
				"parent_id": "dee776dda3ff4b078bccf989a6bd****"
			},
			{
				"id": "27eea7c6b2874cb7a5bf6c71afbf****",
				"type": "sentence",
				"parent_id": "dee776dda3ff4b078bccf989a6bd****"
			},
			{
				"id": "bf9fcfb47fcf410aa05216e268df****",
				"type": "sentence",
				"parent_id": "dee776dda3ff4b078bccf989a6bd****"
			},
			{
				"id": "26ab0e4f7665487bb0a82c5a226a****",
				"type": "sentence",
				"parent_id": "dee776dda3ff4b078bccf989a6bd****"
			}
		],
		"rich_texts": []
	}
}

Contoh respons pengecualian

Jika terjadi kesalahan selama permintaan akses, output akan menentukan alasan kesalahan melalui bidang kode dan pesan.

{
    "request_id": "817964CD-1B84-4AE1-9B63-4FB99734****",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "Kesalahan parse JSON: Byte awal UTF-8 tidak valid 0xbc; nested exception is com.fasterxml.jackson.core.JsonParseException: Byte awal UTF-8 tidak valid 0xbc\n pada baris: 2, kolom: 19]"
}

Kode status

Untuk informasi lebih lanjut tentang kode status, lihat Kode status.