全部产品
Search
文档中心

DataWorks:Buat Node EMR Kyuubi

更新时间:Jul 11, 2025

Apache Kyuubi adalah gateway terdistribusi dan multi-pengguna yang menyediakan layanan query seperti SQL untuk mesin query data lake. Mesin query tersebut mencakup Spark, Flink, dan Trino. DataWorks menyediakan node E-MapReduce (EMR) Kyuubi yang memungkinkan Anda mengembangkan dan menjadwalkan tugas Kyuubi secara berkala serta mengintegrasikannya dengan jenis tugas lainnya. Topik ini menjelaskan cara menggunakan node EMR Kyuubi untuk mengembangkan tugas.

Prasyarat

  • Kluster EMR Alibaba Cloud telah dibuat dan didaftarkan ke DataWorks. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi EMR.

  • (Diperlukan jika Anda menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat memberikan peran ini. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambahkan anggota ruang kerja dan tetapkan peran kepada mereka.

  • Grup sumber daya serverless telah dibeli dan dikonfigurasi, termasuk asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan grup sumber daya serverless.

  • Alur kerja telah dibuat di DataStudio.

    Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.

Batasan

Jenis node ini hanya dapat dijalankan pada grup sumber daya serverless atau grup sumber daya eksklusif untuk penjadwalan. Kami merekomendasikan penggunaan grup sumber daya serverless.

Langkah 1: Buat Node EMR Kyuubi

  1. Buka halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Buat Node EMR Kyuubi.

    1. Temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih Create Node > EMR > EMR Kyuubi.

      Catatan

      Sebagai alternatif, Anda dapat mengarahkan kursor ke ikon Create dan memilih Create Node > EMR > EMR Kyuubi.

    2. Di kotak dialog Create Node, konfigurasikan parameter Name, Engine Instance, Node Type, dan Path. Klik Confirm. Tab konfigurasi node EMR Kyuubi akan muncul.

      Catatan

      Nama node hanya dapat berisi huruf, angka, garis bawah (_), dan titik (.).

Langkah 2: Kembangkan Tugas EMR Kyuubi

Anda dapat mengembangkan tugas Kyuubi di tab konfigurasi node EMR Kyuubi.

Kembangkan kode SQL

Di editor SQL, kembangkan kode node. Anda dapat mendefinisikan variabel dalam format ${Variabel} di dalam kode node dan mengonfigurasi parameter penjadwalan yang ditetapkan ke variabel sebagai nilai di bagian Scheduling Parameter tab Properties. Dengan cara ini, nilai parameter penjadwalan diganti secara dinamis di dalam kode node ketika node dijadwalkan untuk dijalankan. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Contoh kode:

show tables;
select * from kyuubi040702 where age >= '${a}'; -- Anda dapat menetapkan parameter penjadwalan tertentu ke variabel var.

Catatan
  • Ukuran pernyataan SQL untuk tugas tidak boleh melebihi 130 KB.

  • Jika beberapa sumber daya komputasi EMR terhubung dengan DataStudio di ruang kerja Anda, pilih salah satu sumber daya komputasi. Jika hanya ada satu sumber daya komputasi EMR yang terhubung dengan DataStudio di ruang kerja Anda, Anda tidak perlu memilih sumber data.

(Opsional) Konfigurasikan parameter lanjutan

Anda dapat mengonfigurasi parameter lanjutan di tab Pengaturan Lanjutan dari tab konfigurasi node saat ini. Untuk informasi lebih lanjut tentang cara mengonfigurasi parameter, lihat Konfigurasi Spark.

Parameter lanjutan

Deskripsi

queue

Antrian penjadwalan tempat pekerjaan dikirim. Nilai default: default.

Catatan

Jika YARN queue tingkat ruang kerja dikonfigurasi saat Anda mendaftarkan klaster EMR ke ruang kerja yang diinginkan, aturan berikut yang digunakan untuk memilih antrean penjadwalan berlaku saat Anda menjalankan tugas Kyuubi:

  • Jika Anda memilih Yes untuk parameter Whether global configuration takes precedence, antrian penjadwalan yang dikonfigurasi saat Anda mendaftarkan kluster EMR digunakan.

  • Jika Anda tidak mengonfigurasi parameter Whether global configuration takes precedence, antrian penjadwalan yang dikonfigurasi untuk node EMR Kyuubi digunakan.

Untuk informasi tentang EMR YARN, lihat Penjadwal YARN. Untuk informasi tentang cara mengonfigurasi antrian saat Anda mendaftarkan kluster EMR, lihat Konfigurasikan antrian YARN global.

priority

Prioritas. Nilai default: 1.

FLOW_SKIP_SQL_ANALYZE

Metode eksekusi pernyataan SQL. Nilai valid:

  • true: Beberapa pernyataan SQL dieksekusi pada saat yang sama.

  • false (default): Hanya satu pernyataan SQL yang dieksekusi pada satu waktu.

Catatan

Parameter ini hanya tersedia untuk pengujian di lingkungan pengembangan ruang kerja DataWorks.

DATAWORKS_SESSION_DISABLE

Menentukan apakah koneksi JDBC dibuat setiap kali pernyataan SQL dijalankan. Parameter ini tersedia untuk pengujian di lingkungan pengembangan ruang kerja DataWorks. Nilai valid:

  • true: Koneksi JDBC dibuat setiap kali pernyataan SQL dijalankan.

  • false (default): Koneksi JDBC yang sama digunakan saat pernyataan SQL yang berbeda dijalankan untuk node yang sama.

Catatan

Jika parameter DATAWORKS_SESSION_DISABLE disetel ke false, nilai yarn applicationId untuk node EMR Hive tidak ditampilkan. Jika Anda ingin nilai yarn applicationId ditampilkan, Anda dapat menyetel parameter DATAWORKS_SESSION_DISABLE ke true.

Jalankan tugas Kyuubi

  1. Di bilah alat, klik ikon 高级运行. Di kotak dialog Parameters, pilih grup sumber daya yang diinginkan dari daftar drop-down Nama Grup Sumber Daya dan klik Run.

    Catatan
    • Jika Anda ingin mengakses sumber daya komputasi melalui Internet atau virtual private cloud (VPC), gunakan grup sumber daya untuk penjadwalan yang terhubung ke sumber daya komputasi. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.

    • Jika Anda ingin mengubah grup sumber daya dalam operasi selanjutnya, Anda dapat mengklik ikon 高级运行 (Run with Parameters) untuk mengubah grup sumber daya di kotak dialog Parameter.

  2. Klik ikon 保存 di bilah alat atas untuk menyimpan pernyataan SQL.

  3. Opsional. Lakukan pengujian asap.

    Anda dapat melakukan pengujian asap pada node di lingkungan pengembangan saat Anda mengirimkan node atau setelah Anda mengirimkan node. Untuk informasi lebih lanjut, lihat Lakukan pengujian asap.

Langkah 3: Konfigurasikan properti penjadwalan

Jika Anda ingin sistem secara berkala menjalankan tugas pada node, Anda dapat mengklik Properties di panel navigasi sisi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar.

Catatan

Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum Anda mengirimkan tugas.

Langkah 4: Terapkan tugas

Setelah tugas pada node dikonfigurasi, Anda harus mengirimkan dan menerapkan tugas. Setelah Anda mengirimkan dan menerapkan tugas, sistem menjalankan tugas secara teratur berdasarkan konfigurasi penjadwalan.

  1. Klik ikon 保存 di bilah alat atas untuk menyimpan tugas.

  2. Klik ikon 提交 di bilah alat atas untuk mengirimkan tugas.

    Di kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah Anda mengirimkan tugas berdasarkan kebutuhan bisnis Anda.

    Catatan
    • Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum Anda mengirimkan tugas.

    • Anda dapat menggunakan fitur tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi tugas yang disebabkan oleh kode tugas yang tidak valid. Jika Anda mengaktifkan fitur tinjauan kode, kode tugas yang dikirimkan hanya dapat diterapkan setelah kode tugas lulus tinjauan kode. Untuk informasi lebih lanjut, lihat Tinjauan kode.

Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas di lingkungan produksi setelah Anda mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di sudut kanan atas tab konfigurasi node. Untuk informasi lebih lanjut, lihat Terapkan node.

Apa yang harus dilakukan selanjutnya

Setelah Anda mengirimkan dan menerapkan tugas, tugas tersebut dijalankan secara berkala berdasarkan konfigurasi penjadwalan. Anda dapat mengklik Operation Center di sudut kanan atas tab konfigurasi node yang sesuai untuk pergi ke Pusat Operasi dan melihat status penjadwalan tugas. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas yang dipicu otomatis.