Retrieval-Augmented Generation (RAG) meningkatkan kemampuan Large Language Model (LLM) untuk menjawab pertanyaan mengenai pengetahuan domain privat. RAG mengambil informasi relevan dari basis pengetahuan eksternal, menggabungkannya dengan input pengguna, lalu mengirim konteks gabungan tersebut ke LLM. PAI-EAS menyediakan metode penerapan berbasis skenario untuk membangun dan menyebarkan sistem percakapan RAG dengan opsi fleksibel untuk LLM dan database vektor. Topik ini menjelaskan cara menyebarkan layanan RAG dan memverifikasi inferensi model.
Berlaku untuk
Topik ini berlaku untuk versi RAG 0.4.x. Untuk versi sebelumnya, lihat PAI-RAG (v0.3.x).
Langkah 1: Menyebarkan layanan RAG
-
Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman, lalu pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Pada tab Inference Service, klik Deploy Service. Di bagian Scenario-based Model Deployment, klik RAG-based Smart Dialogue Deployment.
Pada halaman RAG-based LLM Chatbot Deployment, konfigurasikan parameter utama berikut:
Version: Pilih LLM Decoupled Deployment untuk hanya menyebarkan layanan RAG.
CatatanLLM Integrated Deployment menyebarkan layanan RAG dan Large Language Model (LLM) dalam instans layanan EAS yang sama. Opsi ini hanya direkomendasikan untuk model yang lebih kecil karena model besar membutuhkan sumber daya signifikan.
RAG Version:
pai-rag:0.4.3.Resource Information:
Resource Type: Pilih Public Resources.
Deployment: Layanan RAG itu sendiri mengonsumsi sedikit sumber daya. Kami merekomendasikan spesifikasi minimal 8 vCPU dan memori 16 GB, seperti
ecs.c7.2xlargeatauecs.c7.4xlarge.
Pengaturan database vektor:
Vector Database Type: Pilih FAISS untuk membangun database vektor lokal dan memulai dengan cepat. Untuk lingkungan produksi, kami merekomendasikan menggunakan database vektor kelas produksi. Untuk petunjuk konfigurasi, lihat Gunakan database vektor Alibaba Cloud.
OSS Path: Pilih direktori penyimpanan OSS yang sudah ada di wilayah saat ini untuk menyimpan file basis pengetahuan yang diunggah. Jika tidak tersedia path penyimpanan, lihat Panduan cepat di konsol untuk membuatnya.
Virtual private cloud (VPC): Untuk mengakses layanan model Alibaba Cloud Model Studio melalui internet publik, Anda harus mengonfigurasi VPC, gerbang NAT publik, dan entri SNAT. Untuk detailnya, lihat Izinkan layanan EAS mengakses internet publik.
Setelah mengonfigurasi parameter, klik Deploy. Proses penerapan biasanya memakan waktu sekitar 5 menit. Saat Service Status berubah menjadi Running, penerapan telah selesai.
Langkah 2: Gunakan Tanya Jawab basis pengetahuan
Pada tab Inference Service, temukan layanan RAG yang telah diterapkan dan buka halaman detailnya. Di pojok kanan atas, klik Web applications untuk membuka antarmuka web.

2.1 Konfigurasi LLM
Di pojok kiri bawah, klik Settings > Model untuk membuka halaman konfigurasi model. Contoh berikut menggunakan model qwen3-8b dari Alibaba Cloud Model Studio. Untuk informasi lebih lanjut tentang konfigurasi model, lihat Konfigurasi model.
Pemanggilan model Alibaba Cloud Model Studio dikenai biaya terpisah. Untuk detail penagihan, lihat Penagihan Alibaba Cloud Model Studio.
Untuk memanggil model Alibaba Cloud Model Studio, Anda harus mengonfigurasi VPC dengan akses internet publik untuk layanan RAG Anda.
Model ID: Identifier untuk memilih model selama percakapan. Untuk contoh ini, masukkan Qwen3-8B_bailian.
Endpoint URL: Alamat layanan model. Alamat layanan untuk Alibaba Cloud Model Studio di wilayah China (Beijing) adalah https://dashscope.aliyuncs.com/compatible-mode/v1.
PentingURL harus diakhiri dengan
/v1atau/v2. Jika Anda menggunakan layanan EAS, tambahkan/v1ke alamat pemanggilan layanan.API key: Untuk petunjuk cara mendapatkan kunci API, lihat Dapatkan kunci API.
Model name: Masukkan qwen3-8b.

2.2 Tambahkan basis pengetahuan
Model penyematan default telah dikonfigurasi sebelumnya. Anda dapat langsung membuat basis pengetahuan dan mengunggah dokumen.
Buat basis pengetahuan. Di panel navigasi kiri, klik Knowledge Base, lalu klik Create Knowledge Base.
Sebagai contoh, untuk membuat basis pengetahuan mengenai spesifikasi teknis iPhone 16, atur nama basis pengetahuan menjadi iPhone16 dan gunakan nilai default untuk parameter lainnya.
Unggah file. Pada tab File Management, klik Upload File. Setelah file diunggah, klik Start Parsing. Contoh file: iPhone 16 and iPhone 16 Plus - Technical Specifications - Apple (Chinese mainland).pdf.

Lihat file basis pengetahuan. Setelah file diunggah, klik namanya untuk melihat chunk dokumen.
Uji pengambilan. Beralih ke tab Retrieval Test dan masukkan kueri, misalnya
iPhone16, untuk menguji pengambilan.
2.3 Tanya Jawab basis pengetahuan
Di panel navigasi kiri, klik New Chat. Di bagian atas halaman percakapan, pilih model. Di bagian bawah, klik Knowledge Base, pilih basis pengetahuan yang akan digunakan (misalnya, iPhone16), klik Activate, lalu Save.
CatatanKami merekomendasikan menguji konfigurasi model dalam percakapan sebelum mengaktifkan basis pengetahuan.

Masukkan pertanyaan Anda di kotak percakapan.

Langkah 3: Jelajahi mode Tanya Jawab lanjutan
Tanya Jawab multimodal (percakapan gambar dan teks)
Untuk menggunakan Tanya Jawab multimodal, Anda harus mengonfigurasi variabel lingkungan OSS untuk layanan RAG Anda dan menggunakan model multimodal.
Konfigurasi variabel lingkungan penyimpanan OSS untuk layanan RAG. Penerapan berbasis skenario tidak secara langsung mendukung pengaturan variabel lingkungan. Untuk menambahkannya, akses pengaturan penerapan layanan dengan mengklik Convert to Custom Deployment untuk layanan baru atau Update untuk layanan yang sudah ada. Di bagian Environment Information, tambahkan variabel lingkungan berikut:
FILE_STORE_TYPE: Atur ke oss.
OSS_BUCKET: Masukkan nama bucket OSS Anda.
CatatanMengatur FILE_STORE_TYPE ke oss secara otomatis membuat direktori bernama
pairag_knowledgebasesdi OSS_BUCKET Anda. Direktori ini menyimpan file basis pengetahuan dan lampiran dari percakapan yang diunggah. Jika FILE_STORE_TYPE tidak diatur, file disimpan di direktori OSS yang dimount secara default.OSS_ENDPOINT: Titik akhir akses OSS. Untuk informasi lebih lanjut, lihat Wilayah dan titik akhir OSS. Misalnya,
oss-cn-hangzhou.aliyuncs.com.OSS_ACCESS_KEY_ID dan OSS_ACCESS_KEY_SECRET: ID AccessKey dan Rahasia AccessKey dari akun dengan izin
AliyunOSSFullAccess.
Konfigurasi LLM multimodal (seperti seri Qwen-VL). Contoh berikut menggunakan qwen-vl-plus. Aktifkan sakelar model multimodal.

Gambar berikut menunjukkan contoh percakapan.

Tanya Jawab agentic (pemanggilan tool MCP)
Mode ini menggunakan kemampuan reasoning dan pemanggilan tool model, seperti pencarian dan peta, untuk menjawab pertanyaan kompleks.
Untuk menggunakan mode ini:
Konfigurasi model yang mendukung Deep Thinking. Dalam konfigurasi model, aktifkan opsi Deep Thinking.

Konfigurasi pencarian.
Pilih mesin pencari: Tavily Search.
Untuk pencarian dalam bahasa Mandarin, Anda juga dapat mengonfigurasi Alibaba Cloud General Search.
Tavily API key: Kunjungi situs resmi Tavily untuk mendaftar akun dan mendapatkan kunci API.

Konfigurasi Amap MCP. Di pojok kiri bawah, klik Settings > MCP dan konfigurasi parameter berikut.
MCP name: amaps
MCP link: https://mcp-server-amap-jitptfyoyw.cn-hangzhou.fcapp.run/sse
MCP type: SSE
Uji percakapan. Di panel navigasi kiri, klik New Chat. Di bagian atas halaman, pilih model Qwen3-8B. Di bagian bawah halaman, pilih Deep Thinking, Search, dan MCP (aktifkan amaps).

Langkah 4: Evaluasi kinerja RAG
Sistem RAG mencakup modul evaluasi bawaan untuk menganalisis kinerja Tanya Jawab secara kuantitatif dari berbagai konfigurasi. Langkah-langkah berikut menjelaskan proses evaluasi lengkap:
Buat set data. Di panel navigasi kiri, klik Evaluation. Pada halaman Evaluasi, klik Create Dataset.

Impor sampel. Klik set data yang telah Anda buat untuk membuka halaman tugas evaluasi. Pada tab Samples, klik Import Data.

Buat konfigurasi run. Pada tab Run Settings, klik Create Configuration dan konfigurasikan pengaturan sesuai kebutuhan.

Buat konfigurasi evaluasi. Pada tab Evaluator Settings, klik Create Configuration dan pilih konfigurasi serta jenis evaluator sesuai kebutuhan.

Jalankan eksperimen evaluasi. Pada tab Samples, pilih sampel yang akan dievaluasi dan klik Run Experiment. Masukkan nama untuk eksperimen dan pilih Run Configuration serta Evaluation Configuration sesuai kebutuhan.

Lihat hasil evaluasi. Setelah eksperimen dibuat, Anda akan diarahkan secara otomatis ke halaman detail eksperimen. Anda juga dapat membuka tab Run History dan memilih eksperimen target untuk melihat detailnya.

Aplikasi produksi
Gunakan database vektor Alibaba Cloud
PAI-RAG mendukung database vektor yang dibangun dengan Elasticsearch, Hologres, OpenSearch, atau RDS for PostgreSQL.
Hologres, Elasticsearch, dan RDS for PostgreSQL mendukung akses melalui jaringan internal atau internet publik. Kami merekomendasikan menggunakan akses jaringan internal.
OpenSearch hanya mendukung akses melalui internet publik.
Elasticsearch
Siapkan instans Elasticsearch
Jika Anda belum memiliki instans Elasticsearch, masuk ke Konsol Alibaba Cloud Elasticsearch dan buat satu dengan pengaturan berikut. Untuk informasi lebih lanjut, lihat Buat kluster Alibaba Cloud Elasticsearch.
Region and availability zone: Pilih wilayah yang sama dengan layanan EAS Anda.
VPC: Pilih VPC yang sama dengan layanan EAS Anda agar dapat diakses melalui jaringan internal.
Instance type: Pilih Standard.
Scenario initialization configuration: Pilih General-purpose.
Konfigurasi layanan
Anda harus mengaktifkan pembuatan indeks otomatis untuk instans Elasticsearch Anda. Di halaman , klik Modify Configurations, lalu atur Auto Index Creation ke Allowed. Untuk langkah-langkah selengkapnya, lihat Mengonfigurasi parameter YML.
Vector Database Type: Pilih Elasticsearch.
Private Endpoint and Port: Buka halaman detail instans Elasticsearch. Di bagian informasi dasar, temukan titik akhir internal dan port. Gunakan format
http://<private_endpoint>:<port>.Index Name: Sistem melakukan tindakan berbeda berdasarkan input Anda.
Masukkan nama baru: EAS secara otomatis membuat indeks yang kompatibel dengan PAI-RAG selama penerapan.
PentingSecara default, Alibaba Cloud Elasticsearch tidak mengizinkan pembuatan indeks otomatis. Pada halaman instans , klik Modify Configurations, perbarui file YML, lalu atur Auto Index Creation ke Allowed. Untuk langkah-langkah selengkapnya, lihat Mengonfigurasi parameter YML.
Masukkan nama yang sudah ada: EAS menggunakan indeks yang sudah ada. Pastikan indeks tersebut dibuat oleh layanan PAI-RAG untuk menjamin kompatibilitas struktural.
Account dan Password: Username dan password yang Anda konfigurasi saat membuat instans Elasticsearch. Username default adalah elastic. Jika lupa password, lihat Reset password instans.
OSS Path: Pilih direktori penyimpanan OSS yang sudah ada di wilayah saat ini. Manajemen basis pengetahuan bergantung pada path OSS yang dimount ini.
Kelola indeks dengan Kibana
Elasticsearch menyediakan fitur manajemen indeks. Untuk informasi lebih lanjut, lihat Sambungkan ke kluster Elasticsearch menggunakan klien Kibana.
Hologres
Pastikan Anda telah membeli instans Hologres.
Vector Database Type: Pilih Hologres.
Invocation Information: Buka halaman detail instans di Konsol Hologres. Di bagian Network Information, temukan titik akhir Specified VPC. Gunakan bagian titik akhir sebelum
:80sebagai nilai host.Database Name: Nama database dari instans Hologres. Jika belum memiliki, lihat Buat database.
Account: Akun pengguna kustom. Untuk membuatnya, lihat Buat pengguna kustom. Untuk Select Member Role, pilih SuperUser.
Password: Password untuk akun pengguna kustom.
Table Name: Sistem melakukan tindakan berbeda berdasarkan input Anda.
Masukkan nama baru: EAS secara otomatis membuat tabel yang kompatibel dengan PAI-RAG selama penerapan.
Masukkan nama yang sudah ada: EAS menggunakan tabel yang sudah ada. Pastikan tabel tersebut dibuat oleh layanan PAI-RAG untuk menjamin kompatibilitas struktural.
OSS Path: Pilih direktori penyimpanan OSS yang sudah ada di wilayah saat ini. Manajemen basis pengetahuan bergantung pada path OSS yang dimount ini.
OpenSearch
Siapkan instans OpenSearch Vector Search Edition
Jika Anda belum memiliki instans OpenSearch, masuk ke Konsol OpenSearch dan buat satu dengan pengaturan berikut. Untuk informasi lebih lanjut, lihat Beli instans OpenSearch Vector Search Edition.
Product version: Pilih Vector Search Edition.
Region and availability zone dan VPC: OpenSearch hanya mendukung akses melalui internet publik, sehingga pengaturan ini tidak perlu sesuai dengan layanan EAS Anda.
Konfigurasi layanan
Vector Database Type: Pilih OpenSearch.
Endpoint: Titik akhir publik instans OpenSearch Vector Search Edition Anda.
CatatanAnda harus mengaktifkan akses publik untuk instans OpenSearch Vector Search Edition dan menambahkan alamat IP publik EAS ke daftar izin.
Instance ID: Dapatkan ID instans dari daftar instans OpenSearch Vector Search Edition.
Username dan Password: Username dan password yang Anda masukkan saat membuat instans OpenSearch Vector Search Edition.
Table Name: Anda harus terlebih dahulu membuat tabel indeks yang kompatibel. Lihat Konfigurasi instans untuk langkah-langkah pembuatan, menggunakan parameter kunci berikut:
Untuk templat skenario, pilih templat tujuan umum dan gunakan JSON berikut untuk mengonfigurasi field.
Pada Index schema, pastikan dimensi vektor sesuai dengan dimensi model penyematan. Untuk Distance type, kami merekomendasikan memilih InnerProduct.
Kelola tabel indeks dan data
Masuk ke Konsol Alibaba Cloud OpenSearch Vector Search Edition, klik ID instans Anda, lalu buka halaman Instance Details.
Buka halaman manajemen tabel untuk mengelola tabel indeks. Untuk informasi lebih lanjut, lihat Manajemen tabel.

Buka halaman manajemen vektor untuk menjalankan uji kueri atau mengelola data. Untuk informasi lebih lanjut, lihat Manajemen vektor.
RDS for PostgreSQL
Siapkan instans RDS for PostgreSQL
Jika Anda belum memiliki instans RDS for PostgreSQL, buka halaman pembuatan instans RDS. Konfigurasi parameter utama berikut dan ikuti petunjuk di layar untuk menyelesaikan pembelian. Untuk informasi lebih lanjut, lihat Buat instans ApsaraDB RDS for PostgreSQL.
Engine: Pilih PostgreSQL.
VPC: Pilih VPC yang sama dengan layanan EAS Anda agar dapat diakses melalui jaringan internal.
Privileged account: Di bagian Advanced Settings, konfigurasi akun istimewa. Pilih Set Now dan konfigurasi akun database dan password.
Buat database.
Klik nama instans yang telah Anda buat. Di panel navigasi kiri, klik Database Management, lalu klik Create Database.
Pada panel Create Database, konfigurasi Database (DB) Name. Untuk Authorized Account, pilih akun istimewa yang telah Anda buat. Untuk informasi tentang parameter lainnya, lihat Buat database dan akun.
Setelah mengonfigurasi parameter, klik Create.
Konfigurasi layanan
Pastikan Anda memiliki instans RDS for PostgreSQL.
Vector Database Type: Pilih RDS for PostgreSQL.
Host address: Titik akhir internal instans RDS for PostgreSQL Anda. Anda dapat menemukannya di halaman Database Connection untuk instans Anda di Konsol ApsaraDB RDS for PostgreSQL.
Port: Default adalah 5432. Masukkan port aktual jika berbeda.
Database: Authorized Account untuk database harus merupakan Privileged Account. Untuk petunjuknya, lihat Buat database dan akun. Anda juga harus menginstal ekstensi vector dan jieba untuk database.
Table Name: Nama kustom untuk tabel database.
Account dan Password: Username dan password resmi yang Anda konfigurasi saat membuat database. Untuk mempelajari cara membuat akun istimewa, lihat Buat database dan akun. Untuk Account type, pilih Privileged Account.
OSS Path: Pilih direktori penyimpanan OSS yang sudah ada di wilayah saat ini. Manajemen basis pengetahuan bergantung pada path OSS yang dimount ini.
Kelola database RDS for PostgreSQL
Buka daftar instans RDS, alihkan ke wilayah instans Anda, lalu klik nama instans.
Di bilah navigasi kiri, pilih Database Management, lalu klik SQL Query di kolom Actions untuk database target.
Masukkan Database account dan Database password, yaitu kredensial akun istimewa yang Anda atur saat membuat instans, lalu klik Sign in.
Setelah login, Anda dapat mengkueri daftar basis pengetahuan yang diimpor di instansiasi basis data.
