全部产品
Search
文档中心

AnalyticDB:pg_jieba

更新时间:Jun 26, 2025

AnalyticDB for PostgreSQL memungkinkan Anda menggunakan ekstensi pg_jieba untuk melakukan segmentasi kata dalam bahasa Tiongkok dan menerapkan pencarian teks lengkap yang efisien.

Pengenalan

Jieba adalah alat yang umum digunakan untuk segmentasi kata dalam bahasa Tiongkok. Ekstensi pg_jieba mengintegrasikan kemampuan segmentasi Jieba ke dalam database PostgreSQL, membantu Anda menerapkan pencarian teks lengkap Tiongkok secara efisien. AnalyticDB for PostgreSQL memungkinkan Anda menggunakan ekstensi pg_jieba untuk kueri terdistribusi.

Prasyarat

Sebelum menggunakan ekstensi pg_jieba, pastikan persyaratan berikut telah dipenuhi:

  • Instansi AnalyticDB for PostgreSQL harus berada dalam mode penyimpanan elastis.

  • Versi minor dari instansi AnalyticDB for PostgreSQL V6.0 adalah 6.6.2.1 atau lebih baru, sedangkan versi minor dari instansi AnalyticDB for PostgreSQL V7.0 adalah 7.0.5 atau lebih baru.

    Catatan

    Untuk informasi tentang cara melihat versi minor dari instansi AnalyticDB for PostgreSQL, lihat Lihat versi mesin minor.

Instal ekstensi pg_jieba

  1. Sebelum menggunakan Jieba, instal ekstensi pg_jieba di halaman Ekstensi dari instansi AnalyticDB for PostgreSQL. Untuk informasi lebih lanjut, lihat Instal, perbarui, dan hapus ekstensi.

  2. Beralihlah ke skema publik dari database yang ditentukan dan jalankan pernyataan berikut untuk memeriksa apakah ekstensi pg_jieba telah diinstal:

    SELECT * FROM pg_extension WHERE extname = 'pg_jieba';

    Jika hasil berikut dikembalikan, ekstensi pg_jieba telah diinstal. Jika tidak, ekstensi tersebut belum diinstal untuk skema publik dari database yang ditentukan.

    +--------+--------+--------+--------+
    |oid     |extname |extowner|...     |
    +--------+--------+--------+--------+
    |17194   |pg_jieba|10.     |...     |
    +--------+--------+--------+--------+

Segmentasi kata dalam bahasa Tiongkok

Setelah menginstal ekstensi pg_jieba, Anda dapat menggunakannya untuk melakukan segmentasi kata dalam bahasa Tiongkok.

Contoh 1:

SELECT to_tsvector('jiebacfg', 'Ada dua metode untuk pencarian teks lengkap');

Hasil berikut dikembalikan:

+---------------------------------------+
|               to_tsvector             |  
+---------------------------------------+
|'dua':2 'pencarian teks lengkap':5 'metode':3 'melakukan':4   |
+---------------------------------------+
(1 baris)

Contoh 2:

SELECT to_tsvector('jiebacfg', 'Ada dua metode untuk pencarian teks lengkap') @@ to_tsquery('jiebacfg', 'pencarian teks lengkap');
+----------+
| ?column? |  
+----------+
| t        |
+----------+
(1 baris)

Kamus kustom

Ekstensi pg_jieba mendukung kamus kustom dalam AnalyticDB for PostgreSQL. Anda dapat menambahkan atau menghapus data dari tabel kamus kustom bernama jieba.jieba_custom_word untuk menambahkan atau menghapus kata kustom.

Catatan
  • Anda tidak perlu membuat tabel kamus secara manual. Saat ekstensi pg_jieba diinstal, sistem secara otomatis membuat tabel kamus kustom bernama jieba.jieba_custom_word.

  • Tabel jieba.jieba_custom_word memiliki struktur data berikut:

    CREATE TABLE jieba.jieba_custom_word
    (
    	word    text primary key,     -- Kata kustom
    	weight  float8 default '1.0', -- Bobot
    	type    text   default 'x'    -- Bagian ucapan
    );

Ajukan izin untuk menggunakan tabel kamus kustom

Kirim tiket untuk mengajukan izin menggunakan tabel jieba.jieba_custom_word. Setelah itu, Anda dapat menambahkan, menghapus, menanyakan, dan menggunakan tabel untuk melakukan segmentasi kata dalam bahasa Tiongkok.

Tambahkan kata ke tabel kamus kustom

INSERT INTO jieba.jieba_custom_word values('dua metode');

Hapus kata dari tabel kamus kustom

DELETE FROM jieba.jieba_custom_word WHERE word='dua metode';

Tanyakan tabel kamus kustom

SELECT * FROM jieba.jieba_custom_word;

Muat ulang tabel kamus kustom

Setelah menambahkan atau menghapus kata dari tabel jieba.jieba_custom_word, Anda harus memuat ulang tabel agar modifikasi diterapkan. Jalankan pernyataan berikut untuk memuat ulang tabel jieba.jieba_custom_word:

SELECT jieba.jieba_load_user_dict();

Periksa efek segmentasi kata dalam bahasa Tiongkok

Jalankan pernyataan contoh berikut sebelum dan sesudah mengonfigurasi tabel jieba.jieba_custom_word untuk memeriksa efek segmentasi kata dalam bahasa Tiongkok:

SELECT to_tsvector('jiebacfg', 'Ada dua metode untuk pencarian teks lengkap');

Hasil berikut dikembalikan:

Skenario

Sebelum mengonfigurasi tabel jieba.jieba_custom_word

Setelah mengonfigurasi tabel jieba.jieba_custom_word

Efek segmentasi kata dalam bahasa Tiongkok

+---------------------------------------+
|               to_tsvector             |  
+---------------------------------------+
|'dua':2 'pencarian teks lengkap':5 'metode':3 'melakukan':4   |
+---------------------------------------+
(1 baris)
+---------------------------------------+
|               to_tsvector             |  
+---------------------------------------+
| 'dua metode':2 'pencarian teks lengkap':4 'melakukan':3       |
+---------------------------------------+
(1 baris)

Referensi