Apache Kyuubi adalah gateway terdistribusi dan multi-pengguna yang menyediakan layanan query seperti SQL untuk mesin query data lake. Mesin query tersebut mencakup Spark, Flink, dan Trino. DataWorks menyediakan node E-MapReduce (EMR) Kyuubi yang memungkinkan Anda mengembangkan dan menjadwalkan tugas Kyuubi secara berkala serta mengintegrasikannya dengan jenis tugas lainnya. Topik ini menjelaskan cara menggunakan node EMR Kyuubi untuk mengembangkan tugas.
Prasyarat
Kluster EMR Alibaba Cloud telah dibuat dan didaftarkan ke DataWorks. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi EMR.
(Diperlukan jika Anda menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat memberikan peran ini. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambahkan anggota ruang kerja dan tetapkan peran kepada mereka.
Grup sumber daya serverless telah dibeli dan dikonfigurasi, termasuk asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan grup sumber daya serverless.
Alur kerja telah dibuat di DataStudio.
Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.
Batasan
Jenis node ini hanya dapat dijalankan pada grup sumber daya serverless atau grup sumber daya eksklusif untuk penjadwalan. Kami merekomendasikan penggunaan grup sumber daya serverless.
Langkah 1: Buat Node EMR Kyuubi
Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat Node EMR Kyuubi.
Temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih .
CatatanSebagai alternatif, Anda dapat mengarahkan kursor ke ikon Create dan memilih .
Di kotak dialog Create Node, konfigurasikan parameter Name, Engine Instance, Node Type, dan Path. Klik Confirm. Tab konfigurasi node EMR Kyuubi akan muncul.
CatatanNama node hanya dapat berisi huruf, angka, garis bawah (_), dan titik (.).
Langkah 2: Kembangkan Tugas EMR Kyuubi
Anda dapat mengembangkan tugas Kyuubi di tab konfigurasi node EMR Kyuubi.
Kembangkan kode SQL
Di editor SQL, kembangkan kode node. Anda dapat mendefinisikan variabel dalam format ${Variabel} di dalam kode node dan mengonfigurasi parameter penjadwalan yang ditetapkan ke variabel sebagai nilai di bagian Scheduling Parameter tab Properties. Dengan cara ini, nilai parameter penjadwalan diganti secara dinamis di dalam kode node ketika node dijadwalkan untuk dijalankan. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Contoh kode:
show tables;
select * from kyuubi040702 where age >= '${a}'; -- Anda dapat menetapkan parameter penjadwalan tertentu ke variabel var.Ukuran pernyataan SQL untuk tugas tidak boleh melebihi 130 KB.
Jika beberapa sumber daya komputasi EMR terhubung dengan DataStudio di ruang kerja Anda, pilih salah satu sumber daya komputasi. Jika hanya ada satu sumber daya komputasi EMR yang terhubung dengan DataStudio di ruang kerja Anda, Anda tidak perlu memilih sumber data.
(Opsional) Konfigurasikan parameter lanjutan
Anda dapat mengonfigurasi parameter lanjutan di tab Pengaturan Lanjutan dari tab konfigurasi node saat ini. Untuk informasi lebih lanjut tentang cara mengonfigurasi parameter, lihat Konfigurasi Spark.
Parameter lanjutan | Deskripsi |
queue | Antrian penjadwalan tempat pekerjaan dikirim. Nilai default: Catatan Jika YARN queue tingkat ruang kerja dikonfigurasi saat Anda mendaftarkan klaster EMR ke ruang kerja yang diinginkan, aturan berikut yang digunakan untuk memilih antrean penjadwalan berlaku saat Anda menjalankan tugas Kyuubi:
Untuk informasi tentang EMR YARN, lihat Penjadwal YARN. Untuk informasi tentang cara mengonfigurasi antrian saat Anda mendaftarkan kluster EMR, lihat Konfigurasikan antrian YARN global. |
priority | Prioritas. Nilai default: 1. |
FLOW_SKIP_SQL_ANALYZE | Metode eksekusi pernyataan SQL. Nilai valid:
Catatan Parameter ini hanya tersedia untuk pengujian di lingkungan pengembangan ruang kerja DataWorks. |
DATAWORKS_SESSION_DISABLE | Menentukan apakah koneksi JDBC dibuat setiap kali pernyataan SQL dijalankan. Parameter ini tersedia untuk pengujian di lingkungan pengembangan ruang kerja DataWorks. Nilai valid:
Catatan Jika parameter DATAWORKS_SESSION_DISABLE disetel ke |
Jalankan tugas Kyuubi
Di bilah alat, klik ikon
. Di kotak dialog Parameters, pilih grup sumber daya yang diinginkan dari daftar drop-down Nama Grup Sumber Daya dan klik Run.CatatanJika Anda ingin mengakses sumber daya komputasi melalui Internet atau virtual private cloud (VPC), gunakan grup sumber daya untuk penjadwalan yang terhubung ke sumber daya komputasi. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.
Jika Anda ingin mengubah grup sumber daya dalam operasi selanjutnya, Anda dapat mengklik ikon
(Run with Parameters) untuk mengubah grup sumber daya di kotak dialog Parameter.
Klik ikon
di bilah alat atas untuk menyimpan pernyataan SQL.Opsional. Lakukan pengujian asap.
Anda dapat melakukan pengujian asap pada node di lingkungan pengembangan saat Anda mengirimkan node atau setelah Anda mengirimkan node. Untuk informasi lebih lanjut, lihat Lakukan pengujian asap.
Langkah 3: Konfigurasikan properti penjadwalan
Jika Anda ingin sistem secara berkala menjalankan tugas pada node, Anda dapat mengklik Properties di panel navigasi sisi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar.
Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum Anda mengirimkan tugas.
Langkah 4: Terapkan tugas
Setelah tugas pada node dikonfigurasi, Anda harus mengirimkan dan menerapkan tugas. Setelah Anda mengirimkan dan menerapkan tugas, sistem menjalankan tugas secara teratur berdasarkan konfigurasi penjadwalan.
Klik ikon
di bilah alat atas untuk menyimpan tugas.Klik ikon
di bilah alat atas untuk mengirimkan tugas.Di kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah Anda mengirimkan tugas berdasarkan kebutuhan bisnis Anda.
CatatanAnda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum Anda mengirimkan tugas.
Anda dapat menggunakan fitur tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi tugas yang disebabkan oleh kode tugas yang tidak valid. Jika Anda mengaktifkan fitur tinjauan kode, kode tugas yang dikirimkan hanya dapat diterapkan setelah kode tugas lulus tinjauan kode. Untuk informasi lebih lanjut, lihat Tinjauan kode.
Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas di lingkungan produksi setelah Anda mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di sudut kanan atas tab konfigurasi node. Untuk informasi lebih lanjut, lihat Terapkan node.
Apa yang harus dilakukan selanjutnya
Setelah Anda mengirimkan dan menerapkan tugas, tugas tersebut dijalankan secara berkala berdasarkan konfigurasi penjadwalan. Anda dapat mengklik Operation Center di sudut kanan atas tab konfigurasi node yang sesuai untuk pergi ke Pusat Operasi dan melihat status penjadwalan tugas. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas yang dipicu otomatis.