Apache Kyuubi adalah gerbang terdistribusi dan multi-tenant yang menyediakan layanan kueri SQL pada mesin kueri data lake, seperti Spark, Flink, dan Trino. Anda dapat menggunakan node EMR Kyuubi di DataWorks untuk mengembangkan dan menjadwalkan pekerjaan Kyuubi secara berkala serta mengintegrasikannya dengan pekerjaan lainnya. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node EMR Kyuubi untuk pengembangan data.
Prasyarat
Anda telah membuat kluster Alibaba Cloud E-MapReduce (EMR) dan mendaftarkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi EMR.
(Opsional, wajib bagi pengguna RAM) Tambahkan pengguna Resource Access Management (RAM) yang bertanggung jawab atas pengembangan tugas ke Ruang Kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, sehingga harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.
Jika Anda menggunakan akun Alibaba Cloud, Anda dapat melewati langkah ini.
Batasan
Hanya kelompok sumber daya Serverless (disarankan) atau kelompok sumber daya eksklusif untuk penjadwalan yang dapat menjalankan jenis tugas ini.
Prosedur
Pada halaman pengeditan node EMR Kyuubi, lakukan operasi pengembangan berikut.
Kembangkan kode SQL
Kembangkan kode tugas di editor SQL. Anda dapat mendefinisikan variabel dalam kode menggunakan format `${variable_name}` dan memberikan nilainya di bagian Schedule di bawah Parameters pada panel kanan, sehingga memungkinkan penerusan parameter secara dinamis ke pekerjaan terjadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Sumber dan ekspresi parameter penjadwalan. Berikut contohnya:
SHOW TABLES; SELECT * FROM kyuubi040702 WHERE age >= '${a}'; -- Dapat digunakan bersama parameter penjadwalan.CatatanUkuran maksimum pernyataan SQL adalah 130 KB.
(Opsional) Konfigurasi parameter lanjutan
Anda dapat mengonfigurasi parameter spesifik node berikut di bagian Schedule di bawah pada panel kanan.
CatatanUntuk informasi selengkapnya tentang properti Spark open-source, konfigurasikan di bagian Schedule di bawah pada panel kanan.
Parameter
Deskripsi
queue
Antrian penjadwalan untuk pekerjaan tersebut. Antrian default adalah
default.CatatanJika Anda telah mengonfigurasi YARN resource queue tingkat ruang kerja saat mendaftarkan kluster E-MapReduce (EMR) ke ruang kerja DataWorks Anda, aturan berikut menentukan antrian penjadwalan mana yang digunakan untuk tugas Kyuubi:
Jika Global configuration priority diatur ke Yes, maka antrian penjadwalan yang dikonfigurasi saat pendaftaran kluster EMR akan digunakan.
Jika Global configuration priority tidak diatur, maka antrian penjadwalan yang dikonfigurasi di node EMR Kyuubi akan digunakan.
Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Mengonfigurasi antrian YARN global.
priority
Prioritas pekerjaan tersebut. Nilai default-nya adalah 1.
FLOW_SKIP_SQL_ANALYZE
Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
true: Mengeksekusi beberapa pernyataan SQL sekaligus.false(default): Mengeksekusi satu pernyataan SQL dalam satu waktu.
CatatanParameter ini hanya berlaku untuk pengujian di lingkungan pengembangan.
DATAWORKS_SESSION_DISABLE
Parameter ini berlaku untuk pengujian yang dipicu secara manual di lingkungan pengembangan. Nilai yang valid:
true: Membuat koneksi JDBC baru untuk setiap pernyataan SQL yang dieksekusi.false(default): Menggunakan kembali koneksi JDBC yang sama untuk semua pernyataan SQL dalam node tersebut.
CatatanSaat parameter ini diatur ke
false,YARN application IDtidak dicetak di log eksekusi. Untuk mencetakYARN application ID, atur parameter ini ketrue.Jalankan tugas SQL
Pada Run Configuration Compute Resources, pilih dan konfigurasikan Compute Resources dan DataWorks resource group.
CatatanAnda juga dapat mengonfigurasi Scheduling CUs berdasarkan kebutuhan sumber daya tugas. Nilai default-nya adalah
0.25CU.Untuk mengakses sumber data melalui jaringan publik atau di Virtual Private Cloud (VPC), Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas ke sumber data tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Pada kotak dialog parameter di bilah alat, pilih sumber data yang sudah ada, lalu klik Run.
Untuk menjalankan tugas node secara berkala, konfigurasikan properti penjadwalan sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya tentang konfigurasi tersebut, lihat Konfigurasi penjadwalan node.
Setelah menyelesaikan konfigurasi node, Anda harus menerapkan node tersebut. Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.
Setelah tugas diterapkan, Anda dapat melihat status eksekusi tugas berkala di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.
FAQ
T: Saya mendapatkan error connection timeout. Apa yang harus saya lakukan?
J: Verifikasi konektivitas jaringan antara Resource Group dan Cluster. Buka halaman resource komputasi, temukan resource tersebut, lalu klik Initialize Resource. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

