全部产品
Search
文档中心

DataWorks:Node EMR Kyuubi

更新时间:Feb 05, 2026

Apache Kyuubi adalah gerbang terdistribusi dan multi-tenant yang menyediakan layanan kueri SQL pada mesin kueri data lake, seperti Spark, Flink, dan Trino. Anda dapat menggunakan node EMR Kyuubi di DataWorks untuk mengembangkan dan menjadwalkan pekerjaan Kyuubi secara berkala serta mengintegrasikannya dengan pekerjaan lainnya. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node EMR Kyuubi untuk pengembangan data.

Prasyarat

  • Anda telah membuat kluster Alibaba Cloud E-MapReduce (EMR) dan mendaftarkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi EMR.

  • (Opsional, wajib bagi pengguna RAM) Tambahkan pengguna Resource Access Management (RAM) yang bertanggung jawab atas pengembangan tugas ke Ruang Kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, sehingga harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.

    Jika Anda menggunakan akun Alibaba Cloud, Anda dapat melewati langkah ini.

Batasan

Hanya kelompok sumber daya Serverless (disarankan) atau kelompok sumber daya eksklusif untuk penjadwalan yang dapat menjalankan jenis tugas ini.

Prosedur

  1. Pada halaman pengeditan node EMR Kyuubi, lakukan operasi pengembangan berikut.

    Kembangkan kode SQL

    Kembangkan kode tugas di editor SQL. Anda dapat mendefinisikan variabel dalam kode menggunakan format `${variable_name}` dan memberikan nilainya di bagian Schedule di bawah Parameters pada panel kanan, sehingga memungkinkan penerusan parameter secara dinamis ke pekerjaan terjadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Sumber dan ekspresi parameter penjadwalan. Berikut contohnya:

    SHOW TABLES;
    SELECT * FROM kyuubi040702 WHERE age >= '${a}'; -- Dapat digunakan bersama parameter penjadwalan.
    Catatan

    Ukuran maksimum pernyataan SQL adalah 130 KB.

    (Opsional) Konfigurasi parameter lanjutan

    Anda dapat mengonfigurasi parameter spesifik node berikut di bagian Schedule di bawah EMR Node Parameters > DataWorks Parameter pada panel kanan.

    Catatan

    Untuk informasi selengkapnya tentang properti Spark open-source, konfigurasikan di bagian Schedule di bawah EMR Node Parameters > Spark Parameter pada panel kanan.

    Parameter

    Deskripsi

    queue

    Antrian penjadwalan untuk pekerjaan tersebut. Antrian default adalah default.

    Catatan

    Jika Anda telah mengonfigurasi YARN resource queue tingkat ruang kerja saat mendaftarkan kluster E-MapReduce (EMR) ke ruang kerja DataWorks Anda, aturan berikut menentukan antrian penjadwalan mana yang digunakan untuk tugas Kyuubi:

    • Jika Global configuration priority diatur ke Yes, maka antrian penjadwalan yang dikonfigurasi saat pendaftaran kluster EMR akan digunakan.

    • Jika Global configuration priority tidak diatur, maka antrian penjadwalan yang dikonfigurasi di node EMR Kyuubi akan digunakan.

    Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. Untuk informasi tentang konfigurasi antrian saat pendaftaran kluster EMR, lihat Mengonfigurasi antrian YARN global.

    priority

    Prioritas pekerjaan tersebut. Nilai default-nya adalah 1.

    FLOW_SKIP_SQL_ANALYZE

    Mode eksekusi untuk pernyataan SQL. Nilai yang valid:

    • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

    • false (default): Mengeksekusi satu pernyataan SQL dalam satu waktu.

    Catatan

    Parameter ini hanya berlaku untuk pengujian di lingkungan pengembangan.

    DATAWORKS_SESSION_DISABLE

    Parameter ini berlaku untuk pengujian yang dipicu secara manual di lingkungan pengembangan. Nilai yang valid:

    • true: Membuat koneksi JDBC baru untuk setiap pernyataan SQL yang dieksekusi.

    • false (default): Menggunakan kembali koneksi JDBC yang sama untuk semua pernyataan SQL dalam node tersebut.

    Catatan

    Saat parameter ini diatur ke false, YARN application ID tidak dicetak di log eksekusi. Untuk mencetak YARN application ID, atur parameter ini ke true.

    Jalankan tugas SQL

    1. Pada Run Configuration Compute Resources, pilih dan konfigurasikan Compute Resources dan DataWorks resource group.

      Catatan
      • Anda juga dapat mengonfigurasi Scheduling CUs berdasarkan kebutuhan sumber daya tugas. Nilai default-nya adalah 0.25 CU.

      • Untuk mengakses sumber data melalui jaringan publik atau di Virtual Private Cloud (VPC), Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas ke sumber data tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.

    2. Pada kotak dialog parameter di bilah alat, pilih sumber data yang sudah ada, lalu klik Run.

  2. Untuk menjalankan tugas node secara berkala, konfigurasikan properti penjadwalan sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya tentang konfigurasi tersebut, lihat Konfigurasi penjadwalan node.

  3. Setelah menyelesaikan konfigurasi node, Anda harus menerapkan node tersebut. Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.

  4. Setelah tugas diterapkan, Anda dapat melihat status eksekusi tugas berkala di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.

FAQ

  • T: Saya mendapatkan error connection timeout. Apa yang harus saya lakukan?

    J: Verifikasi konektivitas jaringan antara Resource Group dan Cluster. Buka halaman resource komputasi, temukan resource tersebut, lalu klik Initialize Resource. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

    image

    image