Kembangkan dan jadwalkan task Presto di node EMR Presto - DataWorks

Presto (juga dikenal sebagai PrestoDB) adalah mesin kueri SQL terdistribusi yang fleksibel dan dapat diskalakan, yang mendukung SQL standar untuk analisis interaktif dan pengkuerian data besar. DataWorks menyediakan node EMR Presto yang dapat Anda gunakan untuk mengembangkan dan menjadwalkan tugas Presto secara berkala. Topik ini menjelaskan proses pengembangan tugas menggunakan node EMR Presto serta mencakup catatan penting.

Prasyarat

Kluster Alibaba Cloud EMR telah dibuat dan didaftarkan ke DataWorks. Untuk informasi selengkapnya, lihat DataStudio (versi lama): Mengaitkan sumber daya komputasi EMR.
(Wajib jika Anda menggunakan Pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberikan peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki izin lebih banyak daripada yang diperlukan. Berhati-hatilah saat memberikan peran tersebut. Untuk informasi selengkapnya tentang cara menambahkan anggota, lihat Menambahkan anggota ke ruang kerja.
Kelompok sumber daya arsitektur tanpa server telah dibeli dan dikonfigurasi. Konfigurasi tersebut mencakup pengaitan dengan ruang kerja dan konfigurasi jaringan. Untuk informasi selengkapnya, lihat Membuat dan menggunakan kelompok sumber daya arsitektur tanpa server.
Alur kerja telah dibuat di DataStudio.
Operasi pengembangan pada berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat node, Anda harus membuat alur kerja terlebih dahulu. Untuk informasi selengkapnya, lihat Membuat alur kerja.

Batasan

Hanya kluster data lake Hadoop lawas yang didukung. Kluster DataLake dan Custom tidak didukung.
Jenis node ini hanya dapat dijalankan pada kelompok sumber daya arsitektur tanpa server atau grup sumber daya eksklusif untuk penjadwalan. Kami merekomendasikan agar Anda menggunakan kelompok sumber daya arsitektur tanpa server.
Ukuran pernyataan SQL dalam tugas Presto tidak boleh melebihi 130 KB.
Saat Anda menggunakan node EMR Presto untuk mengkueri data, maksimal 10.000 catatan dapat dikembalikan, dan ukuran total data yang dikembalikan tidak boleh melebihi 10 MB.
Jejak data (data lineage) tidak didukung untuk tugas yang dikembangkan menggunakan node EMR Presto.

Langkah 1: Buat node EMR Presto

Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat node EMR Presto.
1. Klik kanan alur kerja target dan pilih Create Node > EMR > EMR Presto.
  Catatan
  Sebagai alternatif, Anda dapat mengarahkan kursor ke Create dan memilih Create Node > EMR > EMR Presto.
2. Pada kotak dialog Create Node, masukkan Name dan pilih Engine Instance, Node Type, dan Path. Klik Confirm. Tab konfigurasi untuk node EMR Presto akan ditampilkan.
  Catatan
  Nama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).

Langkah 2: Mengembangkan tugas EMR Presto

Pada tab konfigurasi node EMR Presto, klik ganda node yang telah Anda buat. Anda akan diarahkan ke halaman pengembangan tugas tempat Anda dapat melakukan operasi berikut.

Kembangkan kode SQL

Anda dapat mengembangkan kode node di editor SQL dan mendefinisikan variabel menggunakan format ${variable_name}. Anda kemudian dapat memberikan nilai untuk setiap variabel pada halaman pengeditan node di bagian Scheduling Configuration > Scheduling Parameters di panel navigasi kanan. Hal ini memungkinkan Anda meneruskan parameter secara dinamis ke kode Anda dalam skenario penjadwalan. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Format parameter penjadwalan yang didukung. Berikut adalah contohnya.

select '${var}'; -- Anda dapat menggunakan ini bersama parameter penjadwalan.

select * from userinfo ;

Catatan

Ukuran pernyataan SQL tidak boleh melebihi 130 KB.
Jika beberapa sumber daya komputasi EMR disambungkan ke ruang kerja Anda di DataStudio, pilih sumber daya komputasi sesuai kebutuhan. Jika hanya satu sumber daya komputasi EMR yang disambungkan, Anda tidak perlu memilihnya.
Untuk memodifikasi penetapan parameter dalam kode Anda, klik Run With Parameters di bilah alat atas. Untuk informasi selengkapnya tentang logika penetapan parameter, lihat Perbedaan logika penetapan parameter untuk Run, Run with Parameters, dan pengujian asap lingkungan pengembangan.

(Opsional) Konfigurasi parameter lanjutan

Anda dapat mengonfigurasi properti tertentu untuk sebuah node di bagian Advanced Settings. Untuk informasi selengkapnya tentang cara mengonfigurasi parameter tersebut, lihat Spark Configuration. Tabel berikut menjelaskan parameter lanjutan yang dapat Anda konfigurasi untuk berbagai jenis kluster EMR.

Kluster Hadoop: EMR on ECS

Parameter lanjutan

Deskripsi

FLOW_SKIP_SQL_ANALYZE

Metode eksekusi pernyataan SQL. Nilai yang valid:

true: Mengeksekusi beberapa pernyataan SQL sekaligus.
false (default): Mengeksekusi satu pernyataan SQL dalam satu waktu.

Catatan

Parameter ini hanya didukung untuk pengujian alur (flow) di lingkungan pengembangan.

USE_GATEWAY

Menentukan apakah pekerjaan dari node ini dikirim melalui kluster gateway. Nilai yang valid:

true: Pekerjaan dikirim melalui kluster gateway.
false (default): Pekerjaan dikirim langsung ke node header.

Catatan

Jika kluster node tidak dikaitkan dengan kluster gateway, mengatur parameter ini menjadi true akan menyebabkan pengiriman pekerjaan EMR gagal.

Jalankan tugas SQL

Di bilah alat, klik ikon . Pada kotak dialog Parameters, pilih kelompok sumber daya penjadwalan yang telah Anda buat dan klik Run.
Catatan
- Untuk mengakses sumber daya komputasi melalui internet publik atau di VPC, Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas dengan sumber daya tersebut. Untuk informasi selengkapnya, lihat Solusi Konektivitas Jaringan.
- Untuk mengubah kelompok sumber daya untuk pekerjaan selanjutnya, Anda dapat mengklik ikon Run With Parameters dan memilih kelompok sumber daya penjadwalan yang berbeda.
Klik ikon untuk menyimpan pernyataan SQL.
(Opsional) Lakukan pengujian asap.
Jika Anda ingin melakukan pengujian asap di lingkungan pengembangan, Anda dapat melakukannya saat mengirimkan node atau setelah node dikirimkan. Untuk informasi selengkapnya, lihat Lakukan pengujian asap.

Langkah 3: Konfigurasi properti penjadwalan

Jika Anda ingin sistem menjalankan tugas pada node secara berkala, Anda dapat mengklik Properties di panel navigasi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Ikhtisar.

Catatan

Anda harus mengonfigurasi parameter Rerun dan Parent Nodes pada tab Properties sebelum mengirimkan tugas.

Langkah 4: Deploy tugas

Setelah tugas pada node dikonfigurasi, Anda harus mengirimkan dan mendeploy tugas tersebut. Setelah Anda mengirimkan dan mendeploy tugas, sistem akan menjalankan tugas tersebut secara berkala berdasarkan konfigurasi penjadwalan.

Klik ikon di bilah alat atas untuk menyimpan tugas.
Klik ikon di bilah alat atas untuk mengirimkan tugas.
Pada kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah Anda mengirimkan tugas berdasarkan kebutuhan bisnis Anda.
Catatan
- Anda harus mengonfigurasi parameter Rerun dan Parent Nodes pada tab Properties sebelum mengirimkan tugas.
- Anda dapat menggunakan fitur tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi tugas yang disebabkan oleh kode tugas yang tidak valid. Jika Anda mengaktifkan fitur tinjauan kode, kode tugas yang dikirimkan hanya dapat dideploy setelah kode tugas tersebut lulus tinjauan kode. Untuk informasi selengkapnya, lihat Tinjauan kode.

Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendeploy tugas di lingkungan produksi setelah mengirimkan tugas. Untuk mendeploy tugas pada node, klik Deploy di pojok kanan atas tab konfigurasi node. Untuk informasi selengkapnya, lihat Deploy node.

Operasi lainnya

Setelah Anda mengirimkan dan mendeploy tugas, tugas tersebut akan dijalankan secara berkala berdasarkan konfigurasi penjadwalan. Anda dapat mengklik Operation Center di pojok kanan atas tab konfigurasi node yang sesuai untuk membuka Operation Center dan melihat status penjadwalan tugas tersebut. Untuk informasi selengkapnya, lihat Lihat dan kelola tugas yang dipicu otomatis.

FAQ

T: Mengapa muncul pesan "Error executing query"?
J: Pastikan kluster tersebut merupakan versi lama dari kluster data lake berbasis Hadoop.
T: Mengapa terjadi timeout koneksi saat node dijalankan?
J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar sumber daya komputasi untuk melakukan inisialisasi sumber daya. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.