Terapkan dan panggil chatbot berbasis RAG - ApsaraDB RDS

Modul Elastic Algorithm Service (EAS) dari Platform for AI (PAI) menyediakan metode penerapan yang disederhanakan untuk berbagai skenario. Anda dapat mengonfigurasi parameter untuk menerapkan chatbot model bahasa besar (LLM) berbasis Retrieval-Augmented Generation (RAG). Ini mempersingkat waktu penerapan layanan secara signifikan. Saat menggunakan chatbot untuk inferensi model, chatbot tersebut secara efektif mengambil informasi relevan dari basis pengetahuan dan menggabungkannya dengan jawaban dari aplikasi LLM untuk memberikan respons yang akurat dan informatif. Hal ini meningkatkan kualitas tanya jawab serta performa keseluruhan. Chatbot ini cocok untuk tanya jawab, ringkasan, dan tugas pemrosesan bahasa alami (NLP) lainnya yang bergantung pada basis pengetahuan tertentu. Topik ini menjelaskan cara menerapkan chatbot LLM berbasis RAG dengan membangun database vektor dalam instance ApsaraDB RDS untuk PostgreSQL serta cara melakukan inferensi model.

Informasi latar belakang

Aplikasi LLM memiliki batasan dalam menghasilkan respons yang akurat dan real-time, sehingga tidak cocok untuk skenario yang memerlukan informasi tepat seperti layanan pelanggan atau tanya jawab. Untuk menyelesaikan masalah ini, teknik RAG digunakan untuk meningkatkan performa aplikasi LLM. Teknik ini meningkatkan kualitas tanya jawab, ringkasan, dan tugas NLP lainnya yang bergantung pada basis pengetahuan tertentu.

RAG meningkatkan akurasi jawaban dan jumlah informasi terkait dengan menggabungkan aplikasi LLM seperti Tongyi Qianwen dengan komponen pengambilan informasi. Saat permintaan dimulai, RAG menggunakan komponen pengambilan informasi untuk menemukan dokumen atau fragmen informasi terkait dalam basis pengetahuan, lalu mengintegrasikan konten tersebut dengan permintaan asli ke dalam aplikasi LLM. Aplikasi LLM kemudian menggunakan kemampuan induksi dan generasinya untuk menghasilkan jawaban faktual berdasarkan informasi terbaru tanpa perlu dilatih ulang.

Chatbot yang diterapkan di EAS mengintegrasikan aplikasi LLM dengan RAG untuk mengatasi batasan aplikasi LLM dalam hal akurasi dan ketepatan waktu. Chatbot ini memberikan jawaban yang akurat dan informatif dalam berbagai skenario tanya jawab serta membantu meningkatkan performa keseluruhan dan pengalaman pengguna dari tugas NLP.

Prasyarat

Sebuah virtual private cloud (VPC), vSwitch, dan grup keamanan telah dibuat. Untuk informasi lebih lanjut, lihat Buat dan Kelola VPC dan Buat Grup Keamanan.
Sebuah Object Storage Service (OSS) bucket atau File Storage NAS (NAS) file system telah dibuat untuk menyimpan file model fine-tuned. Prasyarat ini harus dipenuhi jika Anda menggunakan model fine-tuned untuk menerapkan chatbot. Untuk informasi lebih lanjut, lihat Mulai Menggunakan Konsol OSS atau Buat File System.
Catatan
Jika Anda menggunakan Faiss untuk membangun database vektor, Anda harus menyiapkan bucket OSS.

Batasan

Instance ApsaraDB RDS untuk PostgreSQL dan EAS harus berada di wilayah yang sama.

Catatan penggunaan

Praktik ini tunduk pada jumlah maksimum token dari layanan LLM dan dirancang untuk membantu Anda memahami fitur pengambilan dasar dari chatbot LLM berbasis RAG.

Chatbot dibatasi oleh ukuran sumber daya server dari layanan LLM dan jumlah default token. Panjang percakapan yang didukung oleh chatbot juga dibatasi.
Jika Anda tidak perlu melakukan beberapa putaran percakapan, kami sarankan Anda menonaktifkan fitur with chat history dari chatbot. Ini secara efektif mengurangi kemungkinan mencapai batas. Untuk informasi lebih lanjut, lihat bagian Bagaimana Cara Menonaktifkan Fitur with Chat History dari Chatbot Berbasis RAG? dari topik ini.

Langkah 1: Bangun database vektor dalam instance RDS

RAG memungkinkan Anda membangun database vektor dalam instance RDS. Saat membangun database vektor, Anda harus menyimpan konfigurasi parameter yang diperlukan untuk terhubung ke database vektor dalam operasi selanjutnya.

Buat instance RDS. Untuk informasi lebih lanjut, lihat Buat Instance.
Kami sarankan agar instance RDS berada di wilayah yang sama dengan chatbot LLM berbasis RAG untuk memungkinkan komunikasi melalui VPC.
Buat akun dan database untuk instance RDS. Untuk informasi lebih lanjut, lihat Buat Database dan Akun.
- Saat membuat akun, pilih Privileged Account untuk Account Type.
- Saat membuat database, pilih akun istimewa yang telah dibuat dari daftar drop-down Authorized By.
Konfigurasikan koneksi database.
1. Pergi ke halaman Instances. Di bilah navigasi atas, pilih wilayah tempat instance RDS berada. Kemudian, temukan instance RDS dan klik ID instance tersebut.
2. Di panel navigasi sebelah kiri, klik Database Connection.
3. Di halaman Koneksi Database, lihat titik akhir dan port dari database.
Tambahkan pg_jieba ke Running Parameter Value dari parameter shared_preload_libraries. Sebagai contoh, ubah Running Parameter Value menjadi 'pg_stat_statements,auto_explain,pg_cron'. Untuk informasi lebih lanjut, lihat Ubah Parameter dari Instance ApsaraDB RDS untuk PostgreSQL.
Catatan
ApsaraDB RDS untuk PostgreSQL menggunakan ekstensi pg_jieba untuk memisahkan teks Cina. Anda dapat menggunakan ekstensi ini untuk pengambilan dan recall berbasis kata kunci. Untuk informasi lebih lanjut, lihat Gunakan Ekstensi pg_jieba.

Langkah 2: Terapkan chatbot berbasis RAG

Pergi ke halaman EAS.
1. Masuk ke Platform for AI (PAI) console.
2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, temukan workspace tempat Anda ingin menerapkan model dan klik namanya untuk pergi ke halaman Detail Workspace.
  Jika tidak ada workspace yang tersedia, Anda harus membuat satu. Untuk informasi lebih lanjut, lihat Buat dan Kelola Workspace.
3. Di panel navigasi sebelah kiri, pilih Model Deployment > Elastic Algorithm Service (EAS) untuk pergi ke halaman Elastic Algorithm Service (EAS).
Di halaman Elastic Algorithm Service (EAS), klik Deploy Service. Di bagian Scenario-based Model Deployment, klik RAG-based Smart Dialogue Deployment.

Di halaman RAG-based LLM Chatbot Deployment, konfigurasikan parameter. Tabel berikut menjelaskan parameter utama di berbagai bagian.

Informasi Dasar

Parameter	Deskripsi
Service Name	Nama layanan.
Model Source	Sumber model. Nilai valid: Open Source Model dan Custom Fine-tuned Model.
Model Type	Tipe model. Anda dapat memilih tipe model berdasarkan kebutuhan bisnis Anda. Jika Anda mengatur Sumber Model ke Model Fine-tuned Kustom, Anda harus mengonfigurasi kuantitas parameter dan presisi untuk tipe model.
Model Settings	Jika Anda mengatur Sumber Model ke Model Fine-tuned Kustom, Anda harus mengonfigurasi jalur tempat file model fine-tuned disimpan. Nilai valid: Catatan Pastikan format file model kompatibel dengan Hugging Face transformers. Mount OSS: Pilih jalur OSS tempat file model fine-tuned disimpan. Mount NAS: Pilih sistem file NAS tempat file model fine-tuned disimpan dan jalur sumber dari sistem file NAS.

Konfigurasi Sumber Daya

Parameter

Deskripsi

Resource Configuration

Jika Anda mengatur Sumber Model ke Model Open Source, sistem secara otomatis memilih tipe instance berdasarkan tipe model yang dipilih sebagai nilai default.
Jika Anda mengatur Sumber Model ke Model Fine-tuned Kustom, Anda perlu memilih tipe instance yang sesuai dengan model. Untuk informasi lebih lanjut, lihat Terapkan aplikasi LLM di EAS.

Inference Acceleration

Akselerasi inferensi dapat diaktifkan untuk model Qwen, Llama2, ChatGLM, atau Baichuan2 yang diterapkan pada instance A10 atau GU30. Metode akselerasi inferensi berikut disediakan:

BladeLLM Inference Acceleration: Mesin akselerasi inferensi BladeLLM memastikan konkurensi tinggi dan latensi rendah. Anda dapat menggunakan BladeLLM untuk mempercepat inferensi LLM dengan cara yang hemat biaya.
Open-source vLLM Inference Acceleration

Pengaturan Database Vektor

Parameter	Deskripsi
Vector Database Type	Tipe mesin dari database vektor. Pilih RDS PostgreSQL.
Host Address	Titik akhir internal atau publik dari instance RDS. Titik akhir internal: Jika aplikasi RAG dan database berada di wilayah yang sama, Anda dapat menggunakan titik akhir internal untuk menghubungkan aplikasi RAG ke instance RDS Anda. Titik akhir publik: Jika aplikasi RAG dan database berada di wilayah yang berbeda, Anda harus mengajukan titik akhir publik untuk instance RDS Anda. Untuk informasi lebih lanjut, lihat Ajukan atau lepaskan titik akhir publik.
Port	Nomor port. Nilai default: 5432.
Database	Nama database yang Anda buat di instance RDS.
Table Name	Nama tabel baru atau yang sudah ada. Jika Anda memasukkan nama tabel yang sudah ada, skema tabel harus memenuhi persyaratan chatbot LLM berbasis RAG. Sebagai contoh, Anda dapat memasukkan nama tabel yang dibuat secara otomatis saat Anda menerapkan chatbot LLM berbasis RAG menggunakan EAS.
Account	Akun istimewa dari instance RDS
Password	Kata sandi dari akun istimewa.

Konfigurasi VPC

Parameter	Deskripsi
VPC	Jika alamat host adalah titik akhir internal, Anda harus memilih VPC dari instance RDS untuk chatbot LLM berbasis RAG. Jika alamat host adalah titik akhir publik, Anda harus mengonfigurasi VPC dan vSwitch untuk chatbot LLM berbasis RAG dan membuat gateway NAT dan alamat IP elastis (EIP) untuk VPC. Ini memungkinkan chatbot LLM berbasis RAG dapat diakses melalui Internet. Anda harus menambahkan EIP ke daftar putih alamat IP dari instance RDS. Untuk informasi lebih lanjut, lihat Gunakan fitur SNAT dari gateway NAT Internet untuk mengakses Internet dan Konfigurasikan daftar putih alamat IP.
vSwitch
Security Group Name	Grup keamanan. Penting Jangan gunakan grup keamanan bernama created_by_rds karena grup keamanan ini hanya digunakan untuk kontrol akses sistem.

Klik Deploy.
Jika nilai di kolom Service Status berubah menjadi Running, chatbot berbasis RAG telah diterapkan.

Langkah 3: Lakukan inferensi model di web UI

Bagian ini menjelaskan cara men-debug chatbot berbasis RAG di web UI. Setelah Anda menguji performa tanya jawab dari chatbot berbasis RAG di web UI, Anda dapat memanggil operasi API yang disediakan oleh Platform for AI (PAI) untuk menerapkan chatbot berbasis RAG ke sistem bisnis Anda. Untuk informasi lebih lanjut, lihat Langkah 4: Panggil Operasi API untuk Melakukan Inferensi Model dalam topik ini.

1. Konfigurasikan chatbot berbasis RAG

Setelah Anda menerapkan chatbot berbasis RAG, klik View Web App di kolom Service Type untuk masuk ke web UI.
Konfigurasikan model pembelajaran mesin.
- Embedding Model Name: Empat model tersedia. Secara default, model optimal dipilih.
- Embedding Dimension: Setelah Anda mengonfigurasi parameter Nama Model Embedding, sistem secara otomatis mengonfigurasi parameter ini.
Periksa apakah database vektor terhubung.
Sistem secara otomatis mengenali dan menerapkan pengaturan database vektor yang dikonfigurasi saat Anda menerapkan chatbot. Pengaturan ini tidak dapat diubah. Klik Connect PostgreSQL untuk memeriksa apakah database vektor di instance RDS terhubung.

2. Unggah file data bisnis yang ditentukan

Di tab Upload, unggah file data bisnis Anda. Anda dapat mengunggah file dalam format berikut: TXT, PDF, XLSX, XLS, CSV, DOCX, DOC, Markdown, dan HTML.

Konfigurasikan parameter chunking berbasis semantik.

Konfigurasikan parameter berikut untuk mengontrol granularitas chunking dokumen dan mengaktifkan ekstraksi tanya jawab otomatis.

Parameter	Deskripsi
Chunk Size	Ukuran setiap chunk. Unit: byte. Nilai default: 500.
Chunk Overlap	Bagian tumpang tindih antara chunk yang berdekatan. Nilai default: 10.
Process with QA Extraction Model	Menentukan apakah akan mengekstrak informasi QA. Jika Anda memilih Yes, sistem secara otomatis mengekstrak pertanyaan dan jawaban yang sesuai dalam pasangan setelah file data bisnis diunggah. Dengan cara ini, jawaban yang lebih akurat dikembalikan dalam kueri data.

Di tab Files, unggah satu atau beberapa file data bisnis. Anda juga dapat mengunggah direktori yang berisi file data bisnis di tab Directory. Sebagai contoh, Anda dapat mengunggah file rag_chatbot_test_doc.txt.
Sistem melakukan pembersihan data dan chunking berbasis semantik pada file data bisnis sebelum mengunggah file data bisnis. Pembersihan data mencakup ekstraksi teks dan penggantian hyperlink.

3. Konfigurasikan parameter inferensi model

Di tab Chat, konfigurasikan kebijakan tanya jawab.

Konfigurasikan kebijakan tanya jawab untuk kueri berbasis pengambilan

Parameter	Deskripsi
Output Streaming	Menentukan apakah akan mengembalikan hasil dalam mode streaming. Jika Anda memilih Streaming Output, hasilnya dikembalikan dalam mode streaming.
Model Pengambilan	Metode pengambilan. Nilai valid: Embedding Only: Pengambilan berbasis database vektor digunakan. Keyword Only: Pengambilan berbasis kata kunci digunakan. Hybrid: Pengambilan multimodal yang menggabungkan pengambilan berbasis database vektor dan pengambilan berbasis kata kunci digunakan. Catatan Dalam sebagian besar skenario kompleks, pengambilan berbasis database vektor memberikan performa yang lebih baik. Namun, di beberapa bidang vertikal di mana korpus langka atau dalam skenario di mana pencocokan akurat diperlukan, pengambilan berbasis database vektor mungkin tidak mencapai efektivitas yang sama seperti pengambilan tradisional berbasis vektor jarang dan padat. Pengambilan berbasis vektor jarang dan padat menghitung tumpang tindih kata kunci antara permintaan pengguna dan file pengetahuan dan lebih sederhana serta lebih efisien. ApsaraDB RDS untuk PostgreSQL menggunakan ekstensi pg_jieba untuk memisahkan teks Cina. Anda dapat menggunakan ekstensi ini untuk pengambilan dan recall berbasis kata kunci. Untuk informasi lebih lanjut, lihat Gunakan ekstensi pg_jieba.
Tipe Reranker	Sebagian besar database vektor mengorbankan akurasi data untuk memberikan efisiensi komputasi tinggi. Akibatnya, hasil top K yang dikembalikan dari database vektor mungkin bukan yang paling relevan. Dalam hal ini, Anda dapat menggunakan model simple-weighted-reranker atau model-based-reranker untuk melakukan operasi re-rank presisi tinggi pada hasil top K yang dikembalikan dari database vektor untuk mendapatkan file pengetahuan yang lebih relevan dan akurat. Catatan Jika Anda menggunakan model untuk pertama kali, Anda mungkin perlu menunggu beberapa saat sebelum model dimuat.
Top K	Jumlah hasil paling relevan yang dikembalikan dari database vektor.
Ambang Skor Kesamaan	Ambang kesamaan. Nilai yang lebih besar menunjukkan kesamaan yang lebih tinggi.

Konfigurasikan kebijakan tanya jawab untuk kueri berbasis RAG (pengambilan + LLM)

PAI menyediakan berbagai kebijakan prompt. Anda dapat memilih template prompt yang telah ditentukan sebelumnya atau menentukan template prompt kustom untuk hasil inferensi yang lebih baik.
Anda dapat mengonfigurasi parameter berikut dalam mode kueri RAG (pengambilan + LLM): Output Streaming, Mode Pengambilan, dan Tipe Reranker. Untuk informasi lebih lanjut, lihat Chatbot LLM Berbasis RAG.

4. Lakukan inferensi model

Pengambilan

Chatbot mengembalikan hasil top K yang paling relevan dari database vektor.

LLM

Chatbot hanya menggunakan aplikasi LLM untuk menghasilkan jawaban.

RAG (pengambilan + LLM)

Chatbot memasukkan hasil yang dikembalikan dari database vektor dan kueri ke dalam template prompt yang dipilih dan mengirimkan template ke aplikasi LLM untuk memberikan jawaban.

Langkah 4: Panggil operasi API untuk melakukan inferensi model

Fitur lainnya

Setelah Anda terhubung ke database yang digunakan sebagai database vektor pada instance RDS, Anda dapat melihat konten basis pengetahuan yang diimpor. Untuk informasi lebih lanjut tentang cara terhubung ke database, lihat Hubungkan ke Instance ApsaraDB RDS untuk PostgreSQL.

Referensi

Anda juga dapat menggunakan EAS untuk menerapkan item berikut:

Anda dapat menerapkan aplikasi LLM yang dapat dipanggil menggunakan web UI atau operasi API. Setelah aplikasi LLM diterapkan, gunakan kerangka kerja LangChain untuk mengintegrasikan basis pengetahuan perusahaan ke dalam aplikasi LLM dan menerapkan fitur tanya jawab cerdas serta otomatisasi. Untuk informasi lebih lanjut, lihat Terapkan LLM dengan Cepat di EAS.
Anda dapat menerapkan layanan model pembuatan video AI menggunakan ComfyUI dan model Stable Video Diffusion. Ini membantu Anda menyelesaikan tugas seperti pembuatan video pendek dan animasi di platform media sosial. Untuk informasi lebih lanjut, lihat Gunakan ComfyUI untuk Menerapkan Layanan Model Pembuatan Video AI.

FAQ

Bagaimana cara menonaktifkan fitur with chat history dari chatbot berbasis RAG?

Di halaman web UI dari chatbot berbasis RAG, jangan pilih Chat history.