Workbench Pengembangan Pencarian AI mendukung API Layanan Pemisahan Dokumen, memungkinkan Anda mengintegrasikan layanan ini ke dalam alur kerja bisnis untuk meningkatkan efisiensi pengambilan atau pemrosesan.
Nama Layanan | ID Layanan | Deskripsi Layanan | Batas QPS untuk panggilan API (Akun Alibaba Cloud dan Pengguna RAM) |
Layanan pemisahan dokumen-001 | ops-document-split-001 | Layanan ini menawarkan strategi pemotongan teks umum yang mampu membagi data terstruktur dalam format HTML, Markdown, dan TXT. Layanan ini memanfaatkan pemformatan paragraf dokumen, semantik teks, dan aturan yang telah ditentukan sebelumnya, serta dapat mengekstrak kode, gambar, dan tabel dari teks kaya. | 2 Catatan Untuk mengajukan QPS lebih tinggi, ajukan tiket. |
Dalam Retrieval-Augmented Generation (RAG), praktik umum adalah memproses teks menjadi vektor untuk penyimpanan di database vektor guna pengambilan selanjutnya. Layanan pemisahan membagi dokumen panjang menjadi segmen-segmen yang lebih kecil, sesuai dengan persyaratan panjang model penyematan teks untuk setiap segmen, sehingga memungkinkan representasi dokumen panjang sebagai vektor.
Penggunaan Dasar
Input berupa string teks biasa dengan konfigurasi tambahan, dan output berupa teks yang dibagi menjadi segmen, termasuk kemungkinan teks kaya. API mengembalikan empat daftar: chunks, nodes, rich_texts, dan sentences. Untuk menggunakan hasil pemisahan dokumen untuk penyematan, Anda cukup mengekstrak bidang konten dari daftar chunks dan rich_texts, tidak termasuk gambar. Lihat templat kode di pusat skenario. Kode Python adalah sebagai berikut:
# Ekstrak hasil chunk, perhatikan bahwa hanya ["chunks"] dan ["rich_texts"] kecuali gambar yang digunakan di sini
doc_list = []
for chunk in document_split_result.body.result.chunks:
doc_list.append({"id": chunk.meta.get("id"), "content": chunk.content})
for rich_text in document_split_result.body.result.rich_texts:
if rich_text.meta.get("type") != "image":
doc_list.append({"id": rich_text.meta.get("id"), "content": rich_text.content})Metode Penggunaan Lanjutan
Layanan pemisahan dokumen dapat membagi konten dokumen kompleks menjadi sejumlah token tertentu, membentuk struktur pohon dari beberapa node. Struktur ini digunakan selama fase pengambilan RAG untuk memperkaya konteks chunk yang diingat kembali, meningkatkan akurasi jawaban.
Logika layanan bertujuan untuk membagi teks berdasarkan struktur makro sebanyak mungkin. Jika chunk yang dihasilkan tidak memenuhi persyaratan panjang, layanan akan secara rekursif melanjutkan pembagian hingga semua chunk memenuhi persyaratan. Proses rekursif ini menghasilkan pohon chunk, dengan setiap node daun sesuai dengan hasil chunk aktual—node akhir.
Selama proses pengambilan vektor chunk, Anda dapat menggunakan informasi pohon chunk untuk melengkapi konteks. Sebagai contoh, Anda dapat menyertakan chunk lain dari level yang sama dengan chunk yang diingat kembali dalam batas jumlah token model untuk memastikan integritas informasi.
Sebagai contoh, diberikan segmen teks:
Setelah berhasil membuka layanan workbench pengembangan pencarian AI untuk pertama kali, sistem akan secara otomatis membuat ruang kerja default: Default.
Klik untuk membuat ruang. Masukkan nama ruang kerja kustom dan klik konfirmasi. Setelah mengklik untuk membuat API-KEY baru, sistem akan menghasilkan API-KEY. Di sini, pelanggan dapat mengklik tombol salin untuk menyalin dan menyimpan isi API-KEY.Pohon chunk yang mungkin adalah sebagai berikut:
root (6b15)
|
+-- paragraph_node (557b)
|
+-- newline_node (ef4d)[Setelah berhasil membuka workbench pengembangan pencarian AI...Default.]
|
+-- newline_node (c618)
|
+-- sentence_node (98ce)[Klik untuk membuat ruang...klik konfirmasi.]
|
+-- sentence_node (922a)[Setelah mengklik untuk membuat API-KEY baru...klik tombol salin untuk menyalin dan menyimpan isi API-KEY.]Mengingat panjang maksimum chunk, pohon chunk lengkap berisi dua jenis node: node akhir (dengan konten chunk) dan node perantara (node logis tanpa konten). Seluruh pohon dikembalikan sebagai daftar semua node (nodes), dan node akhir juga dikembalikan dalam daftar terpisah (chunks). Berikut adalah beberapa tipe node yang mungkin:
root: Node root.
paragraph_node: Node paragraf, mewakili pemisahan pada pemisah "\n\n" dan menandai posisi paragraf (karena tidak ada \n\n dalam contoh, hanya ada satu node perantara seperti itu).
newline_node: Node baris baru, mewakili pemisahan pada pemisah "\n". Dalam contoh, newline_node (ef4d) memenuhi persyaratan panjang chunk dan merupakan node akhir, sedangkan newline_node (c618) memerlukan pemisahan lebih lanjut dan merupakan node perantara.
sentence_node: Node kalimat, mewakili pemisahan pada pemisah "。".
subsentence_node: Node klausa, mewakili pemisahan pada pemisah "," (tidak ditampilkan dalam contoh).
Untuk konten dalam format Markdown dan HTML, layanan chunk juga mengeluarkan teks kaya (rich_texts) secara terpisah. Sebagai contoh, tag <img>, <table>, dan <code> dalam HTML. Teks kaya ini diganti dengan placeholder seperti [image_0], <table>table_0</table>, dan <code>code_0</code> dalam teks asli. Sebagai contoh, URL gambar seperti "" dalam konten input akan diganti dengan placeholder "[img_69646]", sesuai dengan chunk teks kaya dengan id=img_69646-0 dalam rich_texts (perhatikan akhiran penamaan id). Sementara itu, setiap blok teks kaya dikembalikan dalam bidang rich_texts. Desain ini memungkinkan pengingat kembali blok teks kaya secara terpisah dan penggabungan ulang mereka ke dalam teks asli sesuai kebutuhan. Setiap blok teks kaya sesuai dengan chunk node akhir dari chunk unik.
Untuk meningkatkan tingkat recall untuk kueri pendek, pelanggan dapat memilih untuk mengonfigurasi strategy.need_sentence=true. Dalam hal ini, teks asli dibagi berdasarkan kalimat dan dikembalikan dalam daftar sentences untuk recall independen. Untuk membantu ekspansi kalimat, setiap blok kalimat merupakan bagian dari chunk node akhir dari chunk unik. (Perhatikan bahwa daftar sentences ini tidak terkait dengan sentence_node yang disebutkan sebelumnya).
Chunk tebal, nodes, rich_texts, dan sentences di atas mewakili semua bidang yang dikembalikan oleh API. Penggunaan rinci dapat ditemukan dalam deskripsi parameter di bawah ini. Untuk kesederhanaan, setiap output chunk menggunakan versi sederhana dari sintaksis HTML.
Prasyarat
Informasi otentikasi diperoleh.
Ketika Anda memanggil layanan Platform Terbuka Pencarian AI menggunakan API, Anda perlu mengotentikasi identitas pemanggil.
Alamat akses layanan diperoleh.
Anda dapat memanggil layanan melalui Internet atau virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Dapatkan alamat pendaftaran layanan.
Deskripsi Permintaan
Deskripsi Umum
Ukuran badan permintaan maksimum tidak boleh melebihi 8 MB.
Metode Permintaan
POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/document-split/{service_id} host: Titik akhir layanan, dapat diakses melalui Internet atau melalui VPC. Untuk informasi lebih lanjut, lihat Dapatkan alamat akses layanan.
workspace_name: Nama ruang kerja, seperti default.
service_id: ID layanan bawaan, seperti ops-document-split-001.
Parameter Permintaan
Parameter Header
Otentikasi API-KEY
Parameter | Tipe | Diperlukan | Deskripsi | Nilai contoh |
Content-Type | String | Ya | Tipe permintaan: application/json | application/json |
Authorization | String | Ya | API-Key | Bearer OS-d1**2a |
Parameter Body
Parameter | Tipe | Diperlukan | Deskripsi | Nilai contoh |
document.content | String | Ya | Konten teks biasa yang akan dipisahkan. Menurut standar JSON, lewati karakter berikut dalam bidang string: "\\, \", \/, \b, \f, \n, \r, \t". Perpustakaan JSON umum akan secara otomatis meloloskan karakter-karakter ini dalam string JSON yang dihasilkan. | "Judul\nBaris pertama\nBaris kedua" |
document.content_encoding | String | Tidak | Tipe enkode konten
| utf8 |
document.content_type | String | Tidak | Format konten
| html |
strategy.type | String | Tidak | Strategi pemotongan paragraf
| default |
strategy.max_chunk_size | Int | Tidak | Panjang maksimum chunk, dengan default 300. | 300 |
strategy.compute_type | String | Tidak | Metode yang digunakan untuk menghitung panjang
| token |
strategy.need_sentence | Boolean | Tidak | Menunjukkan apakah akan mengembalikan chunk tingkat kalimat untuk mengoptimalkan recall kueri pendek
| false |
Catatan tambahan:
Parameter strategy.need_sentence mengaktifkan pemotongan tingkat kalimat, yang independen dari pemotongan paragraf. Pada dasarnya, ini mengembalikan setiap kalimat sebagai chunk individu. Mengaktifkan strategi ini memungkinkan recall simultan chunk pendek dan panjang, meningkatkan tingkat recall keseluruhan.
Parameter Respons
Parameter | Tipe | Deskripsi | Nilai contoh |
request_id | String | Pengenal unik yang diberikan oleh sistem untuk panggilan API. | B4AB89C8-B135-****-A6F8-2BAB801A2CE4 |
latency | Float/Int | Durasi permintaan dalam milidetik. | 10 |
usage | Object | Informasi penagihan terkait dengan panggilan ini. | "usage": { "token_count": 3072 } |
usage.token_count | Int | Jumlah token yang digunakan. | 3072 |
result.chunks | List(Chunk) | Daftar hasil chunk (node akhir), termasuk konten dan informasi identifikasi untuk setiap chunk. | [{ "content" : "xxx", "meta":{'parent_id':x, 'id': x, 'type': 'text'} }] |
result.chunks[].content | String | Konten setiap chunk dalam daftar hasil. | "xxx" |
result.chunks[].meta | Map | Informasi identifikasi untuk setiap chunk dalam daftar hasil, dengan semua bidang bertipe string
| { 'parent_id': '3b94a18555c44b67b193c6ab4f****', 'id': 'c9edcb38fdf34add90d62f6bf5c6****, 'type': 'text' 'token': 10, } |
result.rich_texts | List(RichText) | Form output untuk teks kaya. Ketika document.content_type diatur ke markdown atau html, elemen seperti gambar, kode, dan tabel dalam konten chunk diganti dengan placeholder teks kaya. Sebagai contoh, URL gambar seperti "" dalam konten input akan diganti dengan placeholder "[img_69646]", sesuai dengan chunk teks kaya dengan id=img_69646-0 dalam rich_texts (perhatikan akhiran penamaan id) Catatan Form ini tidak didukung ketika document.content_type diatur ke text. | [{ "content" : "xxx", "meta":{'belonged_chunk_id':x, 'id': x, 'type': 'table'} }] |
result.rich_texts[].content | String | Konten untuk setiap chunk teks kaya. Konten gambar adalah URL dan tidak akan dipisah, potensial melebihi max_chunk_size. Tabel dibagi menjadi header dan konten baris. Kode dibagi mirip dengan teks. | "<table><tr>\n<th>Tindakan</th>\n<th>Deskripsi</th>\n</tr><tr>\n<td>Sembunyikan komponen</td>\n<td>Sembunyikan komponen, tidak diperlukan parameter.</td>\n</tr></table>" |
result.rich_texts[].meta | Map | Informasi identifikasi untuk setiap chunk teks kaya, dengan semua bidang bertipe string
| { 'type': 'table', 'belonged_chunk_id': 'f0254cb7a5144a1fb3e5e024a3****b', 'id': 'table_2-1' 'token': 10 } |
result.nodes | List(Node) | Daftar node dari pohon chunk. | [{'parent_id':x, 'id': x, 'type': 'text'}] |
result.nodes[] | Map | Informasi untuk setiap node dalam pohon chunk, dengan semua bidang bertipe string
| { 'id': 'f0254cb7a5144a1fb3e5e024a3****b', 'type': 'paragraph_node', 'parent_id': 'f0254cb7a5144a1fb3e5e024a3****b' } |
result.sentences (opsional) | List(sentence) | Ketika strategy.need_sentence diatur ke true dalam permintaan, ini mengembalikan daftar kalimat dari setiap chunk. | [{ "content" : "xxx", "meta":{'belonged_chunk_id':x, 'id': x, 'type': 'sentence'} }] |
result.sentences[].content (opsional) | String | Konten setiap kalimat. | "123" |
result.sentences[].meta (opsional) | Map | Informasi untuk setiap kalimat:
| { 'id': 'f0254cb7a5144a1fb3e5e024a3****b1-1', 'type': 'sentence', 'belonged_chunk_id': 'f0254cb7a5144a1fb3e5e024a3****b', 'token': 10 } |
Contoh Permintaan Curl
curl -XPOST -H"Content-Type: application/json"
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/document-split/ops-document-split-001"
-H "Authorization: Bearer Your API-KEY"
-d "{
\"document\":{
\"content\":\"Manfaat produk\\nEdisi algoritma industri\\nCerdas\\nModel algoritma kaya yang dapat disesuaikan terintegrasi, dikombinasikan dengan karakteristik pencarian dari berbagai industri, meluncurkan algoritma recall dan pengurutan industri untuk memastikan hasil pencarian yang lebih baik.\\n\\nFleksibel dan dapat disesuaikan\\nPengembang dapat menyesuaikan model algoritma yang sesuai, skema aplikasi, pemrosesan data, analisis query, pengurutan, dan konfigurasi lainnya berdasarkan karakteristik bisnis dan data mereka sendiri untuk memenuhi kebutuhan pencarian personal, meningkatkan tingkat klik hasil pencarian, mencapai iterasi bisnis yang cepat, dan sangat mempersingkat siklus permintaan online.\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nFungsi periferal kaya\\nMendukung serangkaian fungsi pencarian periferal seperti pencarian teratas, petunjuk, saran drop-down, dan laporan statistik, memudahkan pengguna untuk menampilkan dan menganalisis.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Kinerja Tinggi\\nThroughput tinggi\\nTabel tunggal mendukung puluhan ribu TPS tulis, pembaruan level detik.\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Vektor\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nMesin pencari terdistribusi, yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nMendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nAlgoritma vektor\\nMendukung pengambilan vektor dari berbagai data tidak terstruktur (seperti suara, gambar, video, teks, perilaku, dll.).\\n\\nQuery SQL\\nMendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna. Dalam sistem operasi dan pemeliharaan, kami telah mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.\\n\\nEdisi Mesin Recall\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nHavenask adalah mesin pencari terdistribusi yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nHavenask mendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nFitur kaya\\nHavenask mendukung berbagai jenis analyzer, berbagai tipe indeks, dan sintaks query yang kuat, yang dapat dengan baik memenuhi kebutuhan pengambilan pengguna. Kami juga menyediakan mekanisme plugin untuk memudahkan pengguna menyesuaikan logika pemrosesan bisnis mereka sendiri.\\n\\nQuery SQL\\nHavenask mendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna. Dalam sistem operasi dan pemeliharaan, kami segera akan mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.\",
\"content_encoding\":\"utf8\",\"content_type\":\"text\"
},
\"strategy\":{
\"type\":\"default\",
\"max_chunk_size\":300,
\"compute_type\":\"token\",
\"need_sentence\":false
}
}"Contoh Respons
Contoh respons normal
{
"request_id": "47EA146B-****-448C-A1D5-50B89D7EA434",
"latency": 161,
"usage": {
"token_count": 800
},
"result": {
"chunks": [
{
"content": "Manfaat produk\\nEdisi algoritma industri\\nCerdas\\nModel algoritma kaya yang dapat disesuaikan terintegrasi, dikombinasikan dengan karakteristik pencarian dari berbagai industri, meluncurkan algoritma recall dan pengurutan industri untuk memastikan hasil pencarian yang lebih baik.\\n\\nFleksibel dan dapat disesuaikan\\nPengembang dapat menyesuaikan model algoritma yang sesuai, skema aplikasi, pemrosesan data, analisis query, pengurutan, dan konfigurasi lainnya berdasarkan karakteristik bisnis dan data mereka sendiri untuk memenuhi kebutuhan pencarian personal, meningkatkan tingkat klik hasil pencarian, mencapai iterasi bisnis yang cepat, dan sangat mempersingkat siklus permintaan online.\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nFungsi periferal kaya\\nMendukung serangkaian fungsi pencarian periferal seperti pencarian teratas, petunjuk, saran drop-down, dan laporan statistik, memudahkan pengguna untuk menampilkan dan menganalisis.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Kinerja Tinggi\\nThroughput tinggi\\nTabel tunggal mendukung puluhan ribu TPS tulis, pembaruan level detik",
"meta": {
"parent_id": "dee776dda3ff4b078bccf989a6bd****",
"id": "27eea7c6b2874cb7a5bf6c71afbf****",
"type": "text"
}
},
{
"content": ".\\n\\nAman dan stabil\\nMenyediakan pemeliharaan dan operasi 7×24 jam, serta dukungan teknis melalui tiket kerja online dan pelaporan gangguan telepon. Memiliki serangkaian mekanisme tanggap darurat gangguan lengkap, termasuk pemantauan gangguan otomatis, peringatan otomatis, penentuan posisi cepat, dll. Berdasarkan enkripsi keamanan AccessKeyId dan AccessKeySecret Alibaba Cloud, kontrol akses dan isolasi dilakukan dari antarmuka akses untuk memastikan isolasi data tingkat pengguna dan keamanan data pengguna. Cadangan redundansi data memastikan bahwa data tidak akan hilang.\\n\\nPenyesuaian Skala Otomatis\\nMemiliki kemampuan ekspansi elastis, pengguna dapat memperluas atau mengurangi sumber daya yang mereka gunakan sesuai kebutuhan.\\n\\nSiap pakai\\nTidak perlu memelihara dan menyebarkan kluster, akses cepat layanan pencarian satu atap\\n\\nEdisi Pencarian Vektor\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nMesin pencari terdistribusi, yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nMendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nAlgoritma vektor\\nMendukung pengambilan vektor dari berbagai data tidak terstruktur (seperti suara, gambar, video, teks, perilaku, dll.).\\n\\nQuery SQL\\nMendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna",
"meta": {
"parent_id": "dee776dda3ff4b078bccf989a6bd****",
"id": "bf9fcfb47fcf410aa05216e268df****",
"type": "text"
}
},
{
"content": ". Dalam sistem operasi dan pemeliharaan, kami telah mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.\\n\\nEdisi Mesin Recall\\nStabil\\nImplementasi dasar menggunakan C++, yang telah mendukung beberapa bisnis inti setelah lebih dari sepuluh tahun pengembangan. Sangat stabil dan sangat cocok untuk skenario pencarian inti dengan persyaratan stabilitas tinggi.\\n\\nEfisien\\nHavenask adalah mesin pencari terdistribusi yang dapat secara efisien mendukung pengambilan data masif, dan juga mendukung pembaruan data real-time (efektif dalam hitungan detik), sangat cocok untuk skenario pencarian yang sensitif terhadap waktu query dan memiliki persyaratan ketepatan waktu tinggi.\\n\\nBiaya rendah\\nHavenask mendukung berbagai strategi kompresi indeks, dan juga mendukung tes pemuatan indeks multi-nilai, yang dapat memenuhi kebutuhan query pengguna dengan biaya lebih rendah.\\n\\nFitur kaya\\nHavenask mendukung berbagai jenis analyzer, berbagai tipe indeks, dan sintaks query yang kuat, yang dapat dengan baik memenuhi kebutuhan pengambilan pengguna. Kami juga menyediakan mekanisme plugin untuk memudahkan pengguna menyesuaikan logika pemrosesan bisnis mereka sendiri.\\n\\nQuery SQL\\nHavenask mendukung sintaks query SQL, mendukung join online multi-tabel, menyediakan fungsi UDF bawaan yang kaya dan mekanisme penyesuaian fungsi UDF untuk memenuhi kebutuhan pengambilan berbagai pengguna. Dalam sistem operasi dan pemeliharaan, kami segera akan mengintegrasikan SQL studio untuk memudahkan pengguna mengembangkan dan menguji SQL.",
"meta": {
"parent_id": "dee776dda3ff4b078bccf989a6bd****",
"id": "26ab0e4f7665487bb0a82c5a226a****",
"type": "text"
}
}
],
"nodes": [
{
"id": "dee776dda3ff4b078bccf989a6bd****",
"type": "root",
"parent_id": "dee776dda3ff4b078bccf989a6bd****"
},
{
"id": "27eea7c6b2874cb7a5bf6c71afbf****",
"type": "sentence",
"parent_id": "dee776dda3ff4b078bccf989a6bd****"
},
{
"id": "bf9fcfb47fcf410aa05216e268df****",
"type": "sentence",
"parent_id": "dee776dda3ff4b078bccf989a6bd****"
},
{
"id": "26ab0e4f7665487bb0a82c5a226a****",
"type": "sentence",
"parent_id": "dee776dda3ff4b078bccf989a6bd****"
}
],
"rich_texts": []
}
}Contoh respons pengecualian
Jika terjadi kesalahan selama permintaan akses, output akan menentukan alasan kesalahan melalui bidang kode dan pesan.
{
"request_id": "817964CD-1B84-4AE1-9B63-4FB99734****",
"latency": 0,
"code": "InvalidParameter",
"message": "Kesalahan parse JSON: Byte awal UTF-8 tidak valid 0xbc; nested exception is com.fasterxml.jackson.core.JsonParseException: Byte awal UTF-8 tidak valid 0xbc\n pada baris: 2, kolom: 19]"
}Kode status
Untuk informasi lebih lanjut tentang kode status, lihat Kode status.