Buat node EMR Trino - DataWorks - Alibaba Cloud Documentation Center

Trino adalah mesin kueri SQL terdistribusi open-source untuk analitik interaktif lintas berbagai sumber data. Anda dapat membuat node E-MapReduce (EMR) Trino untuk melakukan agregasi data multidimensi skala besar dan analisis laporan. Untuk informasi lebih lanjut, lihat Trino.

Prasyarat

Kluster Alibaba Cloud EMR telah dibuat dan didaftarkan ke ruang kerja DataWorks Anda.

Untuk membuat node terkait EMR dan mengembangkan task EMR, Anda harus mendaftarkan kluster EMR ke ruang kerja DataWorks Anda. Untuk informasi lebih lanjut, lihat Bind EMR compute resources in legacy DataStudio.
(Opsional, untuk pengguna RAM) Pengguna RAM untuk pengembangan task telah ditambahkan ke ruang kerja dan diberikan peran Development atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi lebih lanjut, lihat Add members to a workspace.
Kelompok sumber daya serverless telah dibeli dan dikonfigurasi. Konfigurasi mencakup mengikat kelompok sumber daya ke ruang kerja dan menyiapkan jaringan. Untuk informasi lebih lanjut, lihat Use a serverless resource group.
Alur kerja telah dibuat di DataStudio.

Di DataStudio, operasi pengembangan untuk berbagai engine didasarkan pada alur kerja. Oleh karena itu, Anda harus membuat alur kerja sebelum membuat node. Untuk informasi lebih lanjut, lihat Create a workflow.

Batasan

Jenis task ini hanya dapat dijalankan pada kelompok sumber daya serverless.
Untuk mengelola metadata DataLake atau kluster kustom di DataWorks, Anda harus mengonfigurasi EMR-HOOK pada kluster tersebut. Jika EMR-HOOK tidak dikonfigurasi, Anda tidak dapat melihat metadata secara real time, menghasilkan log audit, menampilkan alur data, atau menjalankan task tata kelola terkait EMR di DataWorks. Untuk informasi lebih lanjut tentang cara mengonfigurasi EMR-HOOK, lihat Configure EMR-HOOK for Hive.
Jika otentikasi Lightweight Directory Access Protocol (LDAP) diaktifkan untuk Trino, Anda harus login ke node master kluster EMR dan mengunduh file keystore dari direktori /etc/taihao-apps/trino-conf. Login ke Konsol DataWorks. Di panel navigasi kiri, klik More > Management Center. Pilih ruang kerja target dari daftar drop-down dan klik Go to Management Center. Di panel navigasi kiri, klik Cluster Management. Temukan kluster EMR yang telah didaftarkan. Di tab Account Mappings, klik Edit Account Mappings, lalu klik Upload Keystore File untuk mengunggah file tersebut.

Langkah 1: Buat node EMR Trino

Login ke Konsol DataWorks. Di wilayah target, klik Data Development and O&M > Data Development di panel navigasi kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Data Development.
Klik kanan alur kerja target dan pilih Create Node > EMR > EMR Trino.
Pada kotak dialog Create Node, masukkan Name dan pilih Compute Engine Instance, Node Type, dan Path. Klik Confirm untuk membuka halaman editor node EMR Trino.

Catatan
Nama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).

Langkah 2: Kembangkan task EMR Trino

Klik ganda node yang telah dibuat untuk membuka halaman pengembangan task dan lakukan operasi berikut.

(Opsional) Pilih instans kluster EMR

Jika beberapa kluster EMR didaftarkan ke ruang kerja Anda, pilih kluster yang sesuai dari daftar drop-down di bagian atas halaman editor node. Jika hanya satu kluster EMR yang didaftarkan, DataWorks akan memilihnya secara default.

Untuk mengakses domain yang memiliki Daftar putih alamat IP, Anda harus menggunakan kelompok sumber daya penjadwalan khusus.

Konfigurasi konektor

Sebelum mengkueri tabel MySQL, Anda harus mengonfigurasi konektor EMR Trino bawaan. Untuk informasi lebih lanjut, lihat MySQL connector.
Sebelum mengkueri tabel Hive, Anda harus mengonfigurasi konektor EMR Trino bawaan. Untuk informasi lebih lanjut, lihat Hive connector.
Untuk mengkueri tabel dari sumber data lain, lihat Configure connectors untuk instruksi mengonfigurasi konektor bawaan.

Edit kode SQL

Masukkan kode task di editor SQL. Kode berikut merupakan contoh.

-- Penggunaan
-- SELECT * FROM <catalog>.<schema>.<table>;
-- Deskripsi parameter
-- <catalog>: nama sumber data yang akan dihubungkan.
-- <schema>: nama database yang digunakan.
-- <table>: tabel yang akan dikueri.
-- Contoh: Untuk melihat data di tabel hive_table dalam database default dari sumber data Hive:
-- Kueri tabel Hive
SELECT * FROM hive.default.hive_table;
-- Contoh: Untuk melihat data di tabel rt_user dalam database rt_data buatan pengguna dari sumber data MySQL:
-- Kueri tabel MySQL  
SELECT * FROM mysql.rt_data.rt_user;
-- Gabungkan tabel Hive dan tabel MySQL
SELECT DISTINCT a.id, a.name,b.rt_name FROM hive.default.hive_table a INNER JOIN mysql.rt_data.rt_user b ON a.id = b.id;
-- Kueri tabel Hive menggunakan parameter penjadwalan
SELECT * FROM hive.default.${table_name};

Catatan

DataWorks menyediakan Scheduling Parameter untuk meneruskan nilai secara dinamis ke kode dalam skenario penjadwalan periodik. Anda dapat mendefinisikan variabel dalam format ${variable_name} di kode task node dan memberikan nilai pada variabel tersebut di tab Scheduling Settings di panel navigasi kanan. Di bagian Scheduling Parameter, tetapkan nilai untuk variabel tersebut. Untuk informasi lebih lanjut tentang format dan konfigurasi parameter penjadwalan yang didukung, lihat Supported formats of scheduling parameters dan Configure and use scheduling parameters.
Jika Anda perlu mengubah nilai parameter dalam kode, klik Advanced Run di bilah alat. Untuk informasi selengkapnya tentang cara menetapkan nilai parameter, lihat Apa perbedaan dalam logika penetapan nilai antara Run, Advanced Run, dan pengujian asap di lingkungan pengembangan?

Jalankan Tugas SQL

Di bilah alat, klik ikon . Di kotak dialog Parameter, pilih kelompok sumber daya penjadwalan dan klik Running.
Catatan
- Untuk mengakses sumber daya komputasi melalui internet publik atau di VPC, Anda harus menggunakan kelompok sumber daya penjadwalan yang dapat terhubung ke sumber daya komputasi tersebut. Untuk informasi lebih lanjut, lihat Network connectivity solutions.
- Jika Anda perlu mengubah kelompok sumber daya untuk eksekusi task berikutnya, klik ikon Running with Parameters dan pilih kelompok sumber daya yang diinginkan.
- Kueri pada node EMR Trino mengembalikan maksimal 10.000 catatan, dan ukuran total data tidak boleh melebihi 10 MB.
Klik ikon untuk menyimpan kode SQL.

(Opsional) Konfigurasi parameter lanjutan

Jika Anda perlu menyesuaikan cara eksekusi pernyataan SQL, klik Advanced Settings di panel navigasi kanan.

Parameter

Deskripsi

FLOW_SKIP_SQL_ANALYZE

Menentukan cara eksekusi pernyataan SQL. Nilai yang valid:

true: Menjalankan beberapa pernyataan SQL sekaligus.
false (default): Menjalankan satu pernyataan SQL dalam satu waktu.

DATAWORKS_SESSION_DISABLE

Parameter ini berlaku untuk eksekusi uji coba di lingkungan pengembangan. Nilai yang valid:

true: Membuat koneksi JDBC baru untuk setiap eksekusi pernyataan SQL.
false (default): Menggunakan kembali koneksi JDBC yang sama ketika pengguna menjalankan berbagai pernyataan SQL dalam satu node.

Langkah 3: Konfigurasi penjadwalan task

Untuk menjalankan task node secara periodik, klik Scheduling di sisi kanan halaman pengeditan node dan konfigurasikan pengaturan penjadwalan sesuai kebutuhan Anda. Untuk informasi lebih lanjut, lihat Overview of task scheduling properties.

Catatan

Anda harus mengonfigurasi Rerun attribute dan Parent Nodes node sebelum dapat mengirimkan node tersebut.

Langkah 4: Komit dan deploy task

Setelah mengonfigurasi task node, Anda harus melakukan komit dan deploy. Setelah task di-deploy, task tersebut akan berjalan secara periodik sesuai konfigurasi penjadwalan.

Klik ikon di bilah alat untuk menyimpan node.
Klik ikon di bilah alat untuk melakukan komit task node.

Pada kotak dialog Submission, masukkan Change Description dan pilih apakah akan melakukan tinjauan kode setelah node dikomit.
Catatan
- Anda harus mengatur properti Rerun attribute dan menentukan Parent Nodes untuk node sebelum dapat melakukan komit.
- Tinjauan kode membantu mengontrol kualitas kode dan mencegah error akibat deployment kode yang belum ditinjau ke lingkungan produksi. Jika Anda mengaktifkan tinjauan kode, reviewer harus menyetujui kode yang telah dikomit sebelum dapat di-deploy. Untuk informasi lebih lanjut, lihat Code review.

Jika ruang kerja Anda berjalan dalam mode standar, Anda harus mengklik Deploy di pojok kanan atas halaman editor node setelah melakukan komit task. Hal ini akan mendeploy task ke lingkungan produksi. Untuk informasi lebih lanjut, lihat Deploy tasks.

Langkah berikutnya

Setelah task dikomit dan di-deploy, task tersebut akan berjalan secara periodik sesuai konfigurasi penjadwalannya. Anda dapat mengklik O&M di pojok kanan atas halaman editor node untuk melihat status penjadwalan dan operasional task periodik tersebut. Untuk informasi lebih lanjut, lihat Manage periodic tasks.

FAQ

T: Terjadi timeout koneksi saat saya menjalankan node. Mengapa?
```
EMR execute task failed!
SQL: {"name":"dw20251018","type":"TRINO_SQL","launcher":{"allocationSpec":{}},"properties":{"envs":{"FLOW_SKIP_SQL_ANALYZE":false},"arguments":["select * from default.dim_customers;"],"tags":[]},"description":"DataWorks"}
TASK-MESSAGE:
FAILED: Error executing query
```
J: Pastikan kelompok sumber daya dan kluster dapat saling terhubung melalui jaringan. Buka daftar sumber daya komputasi dan klik Resource Initialization. Di kotak dialog yang muncul, klik Re-initialize. Verifikasi bahwa inisialisasi berhasil.

Kotak dialog menampilkan pesan berikut di bagian atas: Jika ini pertama kalinya Anda mengikat kluster atau jika konfigurasi layanan kluster (misalnya, file hive-site) telah berubah, inisialisasi ulang kelompok sumber daya. Jika tidak, task mungkin gagal dijalankan.