Menyebar dan memanggil layanan chatbot LLM berbasis RAG -

Retrieval-Augmented Generation (RAG) meningkatkan kemampuan large language model (LLM) dalam menjawab pertanyaan mengenai pengetahuan privat dan spesifik domain. RAG mengambil informasi relevan dari basis pengetahuan eksternal dan menyediakannya sebagai konteks ke LLM bersama kueri pengguna. Elastic Algorithm Service (EAS) menyediakan opsi penerapan berbasis skenario untuk membangun dan menyebar chatbot LLM berbasis RAG secara cepat, memungkinkan Anda memilih model bahasa besar dan database vektor sesuai preferensi. Topik ini menjelaskan cara menyebar layanan chatbot LLM berbasis RAG dan memverifikasi inferensinya.

Penting

Topik ini berlaku untuk versi RAG 0.3.4 dan 0.3.5. Kami menyarankan Anda menggunakan versi terbaru.

Langkah 1: Menyebar layanan RAG

Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman, lalu pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Pada tab Inference Service, klik Deploy Service. Di bagian Scenario-based Model Deployment, klik RAG-based Smart Dialogue Deployment.
Pada halaman RAG-based LLM Chatbot Deployment, konfigurasikan parameter berikut:
- Version: Layanan RAG mendukung dua mode penyebaran. Pilih mode yang sesuai dengan kasus penggunaan dan sumber daya Anda.
  - LLM-Integrated Deployment: Menyebarkan layanan RAG dan model bahasa besar (seperti Qwen) dalam satu instans layanan EAS. Mode ini mudah dikonfigurasi dan ideal untuk validasi cepat serta prototipe.
  - LLM-Separated Deployment: Hanya menyebarkan layanan RAG, sedangkan model bahasa besar dijalankan sebagai layanan terpisah. Mode ini memungkinkan layanan RAG terhubung ke berbagai layanan LLM, seperti LLM lain yang diterapkan di EAS atau layanan Alibaba Cloud Model Studio. Mode ini memfasilitasi penggunaan ulang sumber daya dan penskalaan independen, serta cocok untuk lingkungan produksi atau saat layanan LLM sudah tersedia.
- Deployment: Alokasikan sumber daya komputasi yang sesuai untuk layanan.
  - LLM-Integrated Deployment: Sistem secara otomatis merekomendasikan spesifikasi sumber daya berdasarkan Model Category yang dipilih. Spesifikasi di bawah rekomendasi dapat mencegah layanan dimulai.
  - LLM-Separated Deployment: Layanan RAG itu sendiri mengonsumsi sumber daya minimal. Kami menyarankan spesifikasi dengan CPU minimal 8-core dan memori 16 GB, seperti ecs.g6.2xlarge atau ecs.g6.4xlarge.
- Pengaturan database vektor:
  - Vector Database Type: Pilih FAISS untuk membangun database vektor lokal guna latihan cepat. Untuk lingkungan produksi, kami menyarankan menggunakan database vektor tingkat produksi. Untuk detailnya, lihat Gunakan database vektor Alibaba Cloud.
  - OSS Path: Pilih direktori Object Storage Service (OSS) yang sudah ada di wilayah saat ini untuk menyimpan file basis pengetahuan yang diunggah. Jika tidak tersedia jalur penyimpanan, lihat Console Quick Start untuk membuatnya.
    Catatan
    Jika Anda menyebarkan layanan dengan model fine-tuned yang di-host sendiri, pastikan jalur penyimpanan OSS yang dipilih tidak bertentangan dengan jalur penyimpanan model tersebut.
- VPC: Konfigurasikan EAS untuk mengakses sumber daya publik atau pribadi agar layanan RAG dapat berkomunikasi dengan layanan LLM, database vektor, dan layanan cloud lainnya.
  - Akses layanan publik: Untuk mengakses database vektor, layanan LLM (seperti Alibaba Cloud Model Studio), atau pencarian web melalui internet, Anda harus mengonfigurasi akses jaringan publik untuk layanan EAS.
  - Akses layanan pribadi:
    - Untuk mengakses database vektor melalui titik akhir pribadi, layanan RAG dan database vektor harus berada dalam VPC yang sama.
    - Untuk mengakses layanan LLM melalui titik akhir pribadi, layanan RAG dan layanan LLM harus berada dalam VPC yang sama.
  Catatan
  - Hologres, Elasticsearch, dan RDS PostgreSQL mendukung akses melalui jaringan pribadi maupun publik. Kami menyarankan menggunakan akses jaringan pribadi.
  - Database vektor FAISS tidak memerlukan akses jaringan. OpenSearch hanya mendukung akses melalui jaringan publik.

Setelah mengonfigurasi parameter, klik Deploy. Layanan berhasil diterapkan ketika Service Status berubah menjadi Running. Penerapan biasanya memakan waktu sekitar 5 menit, tetapi durasi dapat bervariasi tergantung ukuran model dan faktor lainnya.

Langkah 2: Memanggil API

Layanan RAG menyediakan API untuk tugas seperti manajemen basis pengetahuan dan percakapan, memungkinkan integrasi mudah ke aplikasi Anda. Untuk detailnya, lihat Referensi API RAG.

Biaya dan risiko

Komponen biaya

Biaya untuk solusi ini terutama mencakup:

Biaya sumber daya EAS: Sumber daya komputasi (seperti vCPU, memori, dan GPU) yang dikonsumsi oleh layanan RAG ditagih per jam. Penagihan sumber daya ini berhenti setelah Anda menghentikan layanan.
Biaya database vektor: Jika Anda menggunakan Elasticsearch, Hologres, OpenSearch, atau RDS PostgreSQL, Anda dikenai biaya instans untuk produk terkait.
Biaya Object Storage Service (OSS): Biaya ini dikenakan untuk menyimpan file basis pengetahuan asli.
Biaya pemanggilan model bahasa besar: Jika Anda menggunakan layanan model komersial seperti Alibaba Cloud Model Studio, biaya pemanggilan API berlaku.
Biaya Internet NAT Gateway: Jika layanan EAS perlu mengakses internet, biaya NAT Gateway berlaku.
Biaya layanan pencarian web: Jika Anda mengaktifkan fitur pencarian web (seperti Bing), biaya berlaku untuk layanan pencarian terkait.

Penting

Menghentikan layanan EAS hanya menghentikan penagihan sumber daya EAS. Untuk menghentikan penagihan produk lain, rujuk dokumentasi produk tersebut dan ikuti petunjuk untuk menghentikan atau menghapus instans terkait.

Risiko dan keterbatasan utama

Batas panjang percakapan: Jumlah teks yang diproses dalam satu percakapan dibatasi oleh ukuran jendela konteks (batas token) layanan LLM yang dipilih.
Penimpaan file: Saat menggunakan database vektor selain FAISS, mengunggah file dengan nama yang sama akan menimpa data yang ada. Lakukan dengan hati-hati.
Batasan parameter API: Hanya subset parameter fitur yang dapat dikonfigurasi melalui pemanggilan API. Konfigurasi lanjutan lainnya, seperti sebagian besar parameter tuning pengambilan, harus dikonfigurasi di WebUI.

Catatan penggunaan

Solusi ini dibatasi oleh ukuran sumber daya server dan batas token default layanan LLM, yang membatasi panjang percakapan. Tujuannya adalah membantu Anda mengalami fungsi pengambilan dasar chatbot LLM berbasis RAG.

FAQ

Parameter API tidak efektif

Saat ini, layanan PAI-RAG hanya mendukung pengonfigurasian parameter yang tercantum dalam dokumen referensi API melalui API. Parameter lainnya harus dikonfigurasi di WebUI.