All Products
Search
Document Center

DataWorks:Buat node EMR Trino

Last Updated:Mar 24, 2026

Trino adalah mesin kueri SQL terdistribusi open-source yang dirancang untuk analitik interaktif pada berbagai sumber data. Anda dapat membuat node E-MapReduce (EMR) Trino untuk agregasi data multidimensi skala besar atau analisis laporan. Untuk informasi selengkapnya, lihat Trino.

Prasyarat

  • Kluster EMR telah dibuat dan didaftarkan ke ruang kerja DataWorks Anda.

    Untuk membuat node EMR dan mengembangkan task EMR, Anda harus terlebih dahulu mendaftarkan kluster EMR ke ruang kerja DataWorks Anda. Petunjuknya tersedia di DataStudio (legacy): Asosiasikan resource komputasi EMR.

  • (Opsional) Jika Anda menggunakan RAM user untuk mengembangkan task, tambahkan RAM user tersebut ke ruang kerja dan berikan peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, jadi berikan dengan hati-hati. Petunjuk menambahkan anggota tersedia di Tambahkan anggota ruang kerja.

  • Anda telah membeli dan mengonfigurasi kelompok sumber daya serverless, termasuk mengasosiasikannya dengan ruang kerja dan menyiapkan konektivitas jaringan. Informasi selengkapnya tersedia di Gunakan kelompok sumber daya serverless.

  • Anda telah membuat alur kerja di DataStudio.

    Di DataStudio, alur kerja digunakan untuk mengorganisasi task pengembangan untuk berbagai mesin komputasi. Oleh karena itu, Anda harus membuat alur kerja sebelum membuat node. Petunjuknya tersedia di Buat alur kerja.

Batasan

  • Task EMR Trino hanya dapat dijalankan pada kelompok sumber daya serverless.

  • Untuk mengelola metadata DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Tanpa konfigurasi ini, DataWorks tidak dapat menampilkan metadata secara real-time, menghasilkan log audit, menampilkan alur data, atau menjalankan task tata kelola terkait EMR. Petunjuk konfigurasi EMR-HOOK tersedia di Konfigurasikan EMR-HOOK untuk Hive.

  • Jika otentikasi Lightweight Directory Access Protocol (LDAP) diaktifkan untuk Trino, login ke node master EMR dan unduh file keystore dari direktori /etc/taihao-apps/trino-conf. Selanjutnya, login ke Konsol DataWorks. Di panel navigasi kiri, klik More > Management Center. Pilih ruang kerja target dari daftar drop-down dan klik Go to Management Center. Di panel navigasi kiri, klik Cluster Management. Temukan kluster EMR target, buka tab Account Mappings, klik Edit Account Mappings, lalu klik Upload Keystore File untuk mengunggah file tersebut.

Langkah 1: Buat node EMR Trino

  1. Buka halaman DataStudio.

    Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Klik kanan alur kerja target dan pilih Create Node > EMR > EMR Trino.

  3. Di kotak dialog Create Node, masukkan Name dan pilih Engine Instance, Node Type, dan Path. Klik Confirm untuk membuka editor node.

    Catatan

    Nama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).

Langkah 2: Kembangkan task EMR Trino

Klik ganda node yang telah dibuat untuk membuka editor task.

(Opsional) Pilih kluster EMR

Jika ruang kerja Anda memiliki beberapa kluster EMR terdaftar, Anda dapat memilih kluster yang sesuai di bagian atas editor node. Jika hanya satu yang terdaftar, DataWorks akan menggunakannya secara default.

image

Konfigurasi konektor

  • Untuk mengkueri tabel MySQL, Anda harus mengonfigurasi konektor EMR Trino bawaan. Detailnya tersedia di Konfigurasikan konektor MySQL.

  • Untuk mengkueri tabel Hive, Anda harus mengonfigurasi konektor EMR Trino bawaan. Detailnya tersedia di Konfigurasikan konektor Hive.

  • Untuk mengkueri tabel dari sumber data lain, konfigurasikan konektor bawaan yang sesuai. Informasi selengkapnya tersedia di Konfigurasikan konektor.

Edit kode SQL

Masukkan kode task di editor SQL. Kode berikut merupakan contoh.

-- Penggunaan
-- SELECT * FROM <catalog>.<schema>.<table>;
-- Penjelasan parameter
-- <catalog>: Nama sumber data yang akan dihubungkan.
-- <schema>: Nama database yang akan digunakan.
-- <table>: Tabel yang akan dikueri.
-- Contohnya, untuk melihat data di hive_table dalam database default dari sumber data Hive:
-- Kueri tabel Hive
SELECT * FROM hive.default.hive_table;

-- Contohnya, untuk melihat data di rt_user dalam database rt_data kustom dari sumber data MySQL:
-- Kueri tabel MySQL
SELECT * FROM mysql.rt_data.rt_user;

-- Gabungkan tabel Hive dan tabel MySQL
SELECT DISTINCT a.id, a.name,b.rt_name FROM hive.default.hive_table a INNER JOIN mysql.rt_data.rt_user b ON a.id = b.id;

-- Kueri tabel Hive menggunakan parameter penjadwalan
SELECT * FROM hive.default.${table_name};
Catatan

Jalankan tugas SQL

  1. Klik ikon 高级运行 di bilah alat. Di kotak dialog Parameters, pilih kelompok sumber daya penjadwalan dan klik Run.

    Catatan
    • Untuk mengakses resource komputasi melalui internet publik atau Virtual Private Cloud (VPC), Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas jaringan dengan resource tersebut. Informasi selengkapnya tersedia di Solusi konektivitas jaringan.

    • Jika Anda perlu mengubah kelompok sumber daya untuk eksekusi berikutnya, klik ikon Run with Parameters 高级运行 dan pilih kelompok sumber daya penjadwalan yang berbeda.

    • Saat Anda mengkueri data menggunakan node EMR Trino, satu kueri dapat mengembalikan maksimal 10.000 catatan, dan ukuran total data tidak boleh melebihi 10 MB.

  2. Klik ikon 保存 untuk menyimpan kode SQL.

(Opsional) Parameter lanjutan

Jika Anda perlu menyesuaikan cara eksekusi pernyataan SQL, klik Advanced Settings di panel navigasi kanan untuk mengonfigurasi parameter tersebut.

Parameter

Deskripsi

FLOW_SKIP_SQL_ANALYZE

Mode eksekusi untuk pernyataan SQL. Nilai yang valid:

  • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

  • false (default): Mengeksekusi satu pernyataan SQL dalam satu waktu.

DATAWORKS_SESSION_DISABLE

Berlaku untuk eksekusi uji di lingkungan pengembangan. Nilai yang valid:

  • true: Membuat koneksi JDBC baru untuk setiap eksekusi pernyataan SQL.

  • false (default): Menggunakan kembali koneksi JDBC yang sama ketika pernyataan SQL berbeda dijalankan dalam satu node yang sama.

Langkah 3: Konfigurasikan penjadwalan task

Untuk menjadwalkan task, klik Scheduling Configuration di sebelah kanan dan konfigurasikan propertinya. Informasi selengkapnya tersedia di Ikhtisar.

Catatan

Konfigurasikan Rerun Property dan Upstream Dependent Node sebelum mengirimkan.

Langkah 4: Kirim dan deploy task

Setelah Anda mengonfigurasi task, kirim dan deploy task tersebut. Setelah dideploy, node akan berjalan secara berkala sesuai konfigurasi penjadwalannya.

  1. Klik ikon 保存 di bilah alat untuk menyimpan node.

  2. Klik ikon 提交 di bilah alat untuk mengirimkan task node.

    Di kotak dialog Submit, masukkan Change description dan pilih apakah akan melakukan tinjauan kode setelah pengiriman.

    Catatan
    • Anda harus mengonfigurasi properti Rerun dan Parent Nodes sebelum dapat mengirimkan node.

    • Tinjauan kode membantu memastikan kualitas kode task Anda dan mencegah kesalahan yang mungkin terjadi jika kode yang rusak dideploy ke lingkungan produksi. Jika tinjauan kode diaktifkan, reviewer harus menyetujui kode yang dikirimkan sebelum dapat dideploy. Informasi selengkapnya tersedia di Tinjauan kode.

Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendeploy task ke lingkungan produksi setelah mengirimkannya. Untuk melakukannya, klik Deploy di pojok kanan atas editor node. Petunjuknya tersedia di Deploy task.

Langkah selanjutnya

Setelah dideploy, task akan berjalan secara berkala sesuai konfigurasinya. Anda dapat mengklik Operation Center di pojok kanan atas editor node untuk melihat status penjadwalan task yang dipicu otomatis. Detailnya tersedia di Kelola task yang dipicu otomatis.

FAQ

  • P: Eksekusi node gagal karena timeout koneksi.

    image

    J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar resource komputasi untuk menginisialisasi resource tersebut. Di kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

    image

    image