Deploy EMR Kyuubi Nodes untuk Menjadwalkan Tugas SQL di DataWorks-DataWorks-Alibaba Cloud - DataWorks

Apache Kyuubi adalah gateway terdistribusi dan multi-tenant yang menyediakan layanan kueri SQL untuk mesin kueri data lake, seperti Spark, Flink, dan Trino. Node EMR Kyuubi di DataWorks memungkinkan Anda mengembangkan dan menjadwalkan tugas Kyuubi secara berkala serta mengintegrasikannya dengan pekerjaan lain. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node EMR Kyuubi untuk pengembangan data.

Prasyarat

Buat kluster Alibaba Cloud EMR dan daftarkan ke DataWorks. Untuk informasi selengkapnya, lihat New Data Studio: Attach an EMR compute resource.
(Opsional, untuk pengguna RAM) Pengguna Resource Access Management (RAM) untuk pengembangan tugas harus ditambahkan ke ruang kerja dan diberi peran Development atau Workspace Administrator (peran ini mencakup izin yang luas dan harus diberikan dengan hati-hati). Untuk informasi selengkapnya, lihat Add workspace members.

Jika Anda menggunakan akun root, lewati langkah ini.

Batasan

Tugas ini hanya dapat dijalankan pada serverless resource group (disarankan) atau exclusive scheduling resource group.

Prosedur

Pada halaman pengeditan node EMR Kyuubi, lakukan operasi pengembangan berikut.

Kembangkan kode SQL

Di editor SQL, kembangkan kode tugas. Anda dapat mendefinisikan variabel dalam kode menggunakan format ${variable_name}. Pada panel kanan, buka bagian Scheduling Settings dan tetapkan nilai untuk variabel tersebut di bidang Scheduling Parameters. Metode ini memungkinkan Anda meneruskan parameter dinamis ke kode saat dijalankan sesuai jadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Sources and expressions of scheduling parameters. Contoh kode berikut disediakan:

SHOW TABLES;
SELECT * FROM kyuubi040702 WHERE age >= '${a}'; -- Anda dapat menggunakan parameter penjadwalan.

Catatan

Pernyataan SQL tidak boleh melebihi ukuran 130 KB.

(Opsional) Konfigurasi parameter advanced

Pada panel kanan, buka Scheduling Settings > EMR Node Parameters > DataWorks parameters.

Catatan

Untuk mengonfigurasi properti open-source Spark lainnya, buka Scheduling Settings > EMR Node Parameters > Spark parameter pada panel kanan.

Parameter	Deskripsi
queue	Antrian sumber daya YARN untuk pekerjaan. Antrian default adalah `default`. Catatan Jika YARN Resource Queue tingkat ruang kerja dikonfigurasi saat Anda mendaftarkan kluster EMR ke ruang kerja DataWorks, aturan pemilihan antrian untuk tugas Kyuubi adalah sebagai berikut: Jika Global Settings Take Precedence diatur ke Yes, antrian penjadwalan yang dikonfigurasi saat pendaftaran kluster EMR akan digunakan. Jika Global Settings Take Precedence tidak dikonfigurasi, antrian penjadwalan yang dikonfigurasi untuk node EMR Kyuubi akan digunakan. Untuk informasi selengkapnya tentang EMR YARN, lihat Basic queue configurations. Untuk informasi selengkapnya tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Set a global YARN resource queue.
priority	Prioritas pekerjaan. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE	Menentukan cara pernyataan SQL dieksekusi. Nilai yang valid: `true`: Mengeksekusi beberapa pernyataan SQL sekaligus. `false` (default): Mengeksekusi satu pernyataan SQL dalam satu waktu. Catatan Parameter ini hanya berlaku untuk pengujian di lingkungan pengembangan data.
DATAWORKS_SESSION_DISABLE	Berlaku untuk pengujian langsung di lingkungan pengembangan. Nilai yang valid: `true`: Membuat koneksi JDBC baru untuk setiap eksekusi pernyataan SQL. `false` (default): Menggunakan kembali koneksi JDBC yang sama saat Anda menjalankan pernyataan SQL berbeda dalam satu node yang sama. Catatan Jika parameter ini diatur ke `false`, `yarn applicationId` Hive tidak dicetak di log. Untuk mencetak `yarn applicationId`, atur parameter ini ke `true`.

Jalankan tugas SQL

Pada bagian Compute Resource di Run Configuration, pilih Compute Resource dan DataWorks Resource Group.
Catatan
- Anda juga dapat menyesuaikan CUs for Scheduling berdasarkan kebutuhan sumber daya tugas. Nilai default adalah 0.25.
- Untuk mengakses sumber data melalui jaringan publik atau di dalam VPC, Anda harus menggunakan resource group penjadwalan yang telah diverifikasi konektivitasnya ke sumber data tersebut. Untuk informasi selengkapnya, lihat Network connectivity solutions.
Pada kotak dialog parameter di bilah alat, pilih sumber data, lalu klik Run.

Untuk menjalankan tugas node sesuai jadwal, konfigurasikan informasi penjadwalan sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Node scheduling configuration.
Setelah mengonfigurasi node, deploy node tersebut. Untuk informasi selengkapnya, lihat Deploy nodes and workflows.
Setelah tugas dideploy, Anda dapat melihat status eksekusinya di Operation Center. Untuk informasi selengkapnya, lihat Get started with Operation Center.

FAQ

Q: Node gagal dengan error connection timeout. Apa yang harus saya lakukan?

A: Pastikan resource group dan kluster dapat saling terhubung melalui jaringan. Buka daftar sumber daya komputasi dan klik Resource Initialization. Di kotak dialog yang muncul, klik Re-initialize. Verifikasi bahwa inisialisasi berhasil.

Pesan di bagian atas kotak dialog menunjukkan bahwa Anda harus menginisialisasi resource group saat pertama kali mengikat kluster atau ketika konfigurasi layanan kluster berubah, misalnya modifikasi pada hive-site.xml. Jika tidak, tugas mungkin gagal. Setelah inisialisasi berhasil, kolom status menampilkan Successfully initialized dan menunjukkan waktu penyelesaian.