AnalyticDB for PostgreSQL memungkinkan Anda menggunakan ekstensi pg_jieba untuk melakukan segmentasi kata dalam bahasa Tiongkok dan menerapkan pencarian teks lengkap yang efisien.
Pengenalan
Jieba adalah alat yang umum digunakan untuk segmentasi kata dalam bahasa Tiongkok. Ekstensi pg_jieba mengintegrasikan kemampuan segmentasi Jieba ke dalam database PostgreSQL, membantu Anda menerapkan pencarian teks lengkap Tiongkok secara efisien. AnalyticDB for PostgreSQL memungkinkan Anda menggunakan ekstensi pg_jieba untuk kueri terdistribusi.
Prasyarat
Sebelum menggunakan ekstensi pg_jieba, pastikan persyaratan berikut telah dipenuhi:
Instansi AnalyticDB for PostgreSQL harus berada dalam mode penyimpanan elastis.
Versi minor dari instansi AnalyticDB for PostgreSQL V6.0 adalah 6.6.2.1 atau lebih baru, sedangkan versi minor dari instansi AnalyticDB for PostgreSQL V7.0 adalah 7.0.5 atau lebih baru.
CatatanUntuk informasi tentang cara melihat versi minor dari instansi AnalyticDB for PostgreSQL, lihat Lihat versi mesin minor.
Instal ekstensi pg_jieba
Sebelum menggunakan Jieba, instal ekstensi pg_jieba di halaman Ekstensi dari instansi AnalyticDB for PostgreSQL. Untuk informasi lebih lanjut, lihat Instal, perbarui, dan hapus ekstensi.
Beralihlah ke skema publik dari database yang ditentukan dan jalankan pernyataan berikut untuk memeriksa apakah ekstensi pg_jieba telah diinstal:
SELECT * FROM pg_extension WHERE extname = 'pg_jieba';Jika hasil berikut dikembalikan, ekstensi pg_jieba telah diinstal. Jika tidak, ekstensi tersebut belum diinstal untuk skema publik dari database yang ditentukan.
+--------+--------+--------+--------+ |oid |extname |extowner|... | +--------+--------+--------+--------+ |17194 |pg_jieba|10. |... | +--------+--------+--------+--------+
Segmentasi kata dalam bahasa Tiongkok
Setelah menginstal ekstensi pg_jieba, Anda dapat menggunakannya untuk melakukan segmentasi kata dalam bahasa Tiongkok.
Contoh 1:
SELECT to_tsvector('jiebacfg', 'Ada dua metode untuk pencarian teks lengkap');Hasil berikut dikembalikan:
+---------------------------------------+
| to_tsvector |
+---------------------------------------+
|'dua':2 'pencarian teks lengkap':5 'metode':3 'melakukan':4 |
+---------------------------------------+
(1 baris)Contoh 2:
SELECT to_tsvector('jiebacfg', 'Ada dua metode untuk pencarian teks lengkap') @@ to_tsquery('jiebacfg', 'pencarian teks lengkap');+----------+
| ?column? |
+----------+
| t |
+----------+
(1 baris)Kamus kustom
Ekstensi pg_jieba mendukung kamus kustom dalam AnalyticDB for PostgreSQL. Anda dapat menambahkan atau menghapus data dari tabel kamus kustom bernama jieba.jieba_custom_word untuk menambahkan atau menghapus kata kustom.
Anda tidak perlu membuat tabel kamus secara manual. Saat ekstensi pg_jieba diinstal, sistem secara otomatis membuat tabel kamus kustom bernama
jieba.jieba_custom_word.Tabel
jieba.jieba_custom_wordmemiliki struktur data berikut:CREATE TABLE jieba.jieba_custom_word ( word text primary key, -- Kata kustom weight float8 default '1.0', -- Bobot type text default 'x' -- Bagian ucapan );
Ajukan izin untuk menggunakan tabel kamus kustom
Kirim tiket untuk mengajukan izin menggunakan tabel jieba.jieba_custom_word. Setelah itu, Anda dapat menambahkan, menghapus, menanyakan, dan menggunakan tabel untuk melakukan segmentasi kata dalam bahasa Tiongkok.
Tambahkan kata ke tabel kamus kustom
INSERT INTO jieba.jieba_custom_word values('dua metode');Hapus kata dari tabel kamus kustom
DELETE FROM jieba.jieba_custom_word WHERE word='dua metode';Tanyakan tabel kamus kustom
SELECT * FROM jieba.jieba_custom_word;Muat ulang tabel kamus kustom
Setelah menambahkan atau menghapus kata dari tabel jieba.jieba_custom_word, Anda harus memuat ulang tabel agar modifikasi diterapkan. Jalankan pernyataan berikut untuk memuat ulang tabel jieba.jieba_custom_word:
SELECT jieba.jieba_load_user_dict();Periksa efek segmentasi kata dalam bahasa Tiongkok
Jalankan pernyataan contoh berikut sebelum dan sesudah mengonfigurasi tabel jieba.jieba_custom_word untuk memeriksa efek segmentasi kata dalam bahasa Tiongkok:
SELECT to_tsvector('jiebacfg', 'Ada dua metode untuk pencarian teks lengkap');Hasil berikut dikembalikan:
Skenario | Sebelum mengonfigurasi tabel jieba.jieba_custom_word | Setelah mengonfigurasi tabel jieba.jieba_custom_word |
Efek segmentasi kata dalam bahasa Tiongkok | | |
Referensi
Untuk informasi tentang pencarian teks lengkap, lihat Full Text Search.
Untuk informasi tentang fungsi dan operator yang dapat digunakan untuk pencarian teks lengkap, lihat Text Search Functions and Operators.