Implementasi operator GroupJoin dalam Indeks Kolom dalam Memori - PolarDB

Artikel ini menjelaskan implementasi, keterbatasan, dan karya terkait operator GroupJoin di PolarDB IMCI. Sebelum melanjutkan, Anda harus memahami dasar algoritma HASH JOIN dan HASH GROUP BY.

Latar Belakang

SELECT
  key1,
  SUM(sales) as total_sales
FROM
  fact_table LEFT JOIN dimension_table ON fact_table.key1 = dimension_table.key1
GROUP BY
  fact_table.key1
ORDER BY
  total_sales
LIMIT 100;

Di PolarDB IMCI, rencana eksekusi untuk kueri seperti di atas biasanya menjalankan HASH JOIN terlebih dahulu, lalu HASH GROUP BY pada key1. Kedua operasi tersebut membangun tabel hash pada key1 (perhatikan bahwa fact_table.key1 = dimension_table.key1). Rencana eksekusinya adalah sebagai berikut:

HASH JOIN: Membangun tabel hash pada dimension_table.key1, melakukan probe dengan fact_table.key1, dan menghasilkan data yang sesuai.
HASH GROUP BY: Membangun tabel hash lain pada fact_table.key1 dan melakukan agregasi saat menulis ke tabel hash tersebut.

Dari perspektif kinerja, kedua operasi ini dapat digabung menjadi satu: bangun tabel hash pada dimension_table.key1 sambil melakukan agregasi, lalu lakukan probe dengan fact_table.key1 untuk melanjutkan agregasi. Pendekatan ini menghemat waktu pembuatan tabel hash pada fact_table.key1. Operasi gabungan ini—yang menggabungkan operator HASH JOIN dan HASH GROUP BY—disebut operator GroupJoin.

Menggabungkan kedua operasi ini menghilangkan pembuatan satu tabel hash. Selain itu, hal ini juga mengurangi ukuran hasil antara. Operasi JOIN dapat berpotensi memperluas set hasil karena satu baris dari suatu tabel dapat cocok dengan beberapa baris di tabel lainnya. Dalam skenario terburuk, hal ini menghasilkan Produk Kartesius: menggabungkan tabel berisi N baris dengan tabel berisi M baris dapat menghasilkan hingga N×M set hasil. Dengan HASH JOIN standar diikuti oleh HASH GROUP BY, tabel hash berisi N baris dapat menghasilkan N×M×S baris (dengan S sebagai selektivitas, 0 ≤ S ≤ 1). Baris-baris ini kemudian diagregasi ke dalam tabel hash baru, yang merupakan pemborosan sumber daya. Bahkan pada contoh sebelumnya mengenai LEFT OUTER JOIN antara tabel fakta besar (M baris) dan tabel dimensi kecil (N baris) di mana key1 merupakan kunci unik, proses tersebut tetap menghasilkan M baris dari HASH JOIN, yang kemudian diagregasi ke dalam tabel hash baru. Sebaliknya, operator GroupJoin menyelesaikan join dan agregasi dalam tabel hash awal berisi N baris, sehingga mengurangi hasil antara dan konsumsi memori.

Berdasarkan pertimbangan ini, PolarDB for MySQL menambahkan operator GroupJoin ke PolarDB IMCI.

Desain Algoritma

Ikhtisar

Implementasi GroupJoin di IMCI menggabungkan operator HASH JOIN dan HASH GROUP BY:

Pertama, tabel hash dibangun dari tabel kiri (lebih kecil). Fungsi agregat yang mereferensikan tabel kiri dievaluasi selama fase pembangunan ini. Proses ini setara dengan mengagregasi tabel kiri (misalnya, HASH GROUP BY left_table).
Selanjutnya, tabel hash diprobe menggunakan tabel kanan (lebih besar). Jika terjadi kecocokan, fungsi agregat yang mereferensikan tabel kanan dievaluasi pada entri tabel hash yang sesuai. Jika tidak cocok, baris tersebut dibuang atau langsung di-output, tergantung pada jenis join.

Bagian-bagian berikut menjelaskan algoritma GroupJoin IMCI secara detail dan membahas penyederhanaan potensial.

Keterbatasan

Untuk menjaga implementasi tetap terkelola, implementasi GroupJoin di PolarDB for MySQL memiliki keterbatasan berikut dibandingkan implementasi yang sepenuhnya umum:

Kunci GROUP BY harus merupakan kunci gabungan dan harus sepenuhnya sesuai dengan kunci dari salah satu tabel. Kasus di mana subset dari kunci gabungan dapat secara unik mengidentifikasi kunci (yaitu, ketergantungan fungsional) tidak didukung.
Untuk skenario RIGHT JOIN, GROUP BY RIGHT, kunci sisi kanan harus unik. Jika tidak, pengoptimal mungkin menulis ulang kueri menjadi LEFT JOIN, GROUP BY LEFT atau menghindari penggunaan operator GroupJoin.
Setiap fungsi agregat hanya boleh mereferensikan kolom dari tabel kiri atau tabel kanan, tetapi tidak keduanya. Operator GroupJoin tidak berlaku jika fungsi agregat dalam daftar SELECT mereferensikan kolom dari kedua tabel, seperti SUM(t1.a + t2.a).