全部产品
Search
文档中心

DataWorks:Buat node EMR Trino

更新时间:Jul 09, 2025

Trino adalah mesin SQL query terdistribusi open source yang dirancang untuk menjalankan query analitik interaktif dari berbagai sumber data. Anda dapat membuat node E-MapReduce (EMR) Trino untuk menggabungkan sejumlah besar data multidimensi atau menganalisis laporan. Untuk informasi lebih lanjut, lihat Ikhtisar Trino.

Prasyarat

  • Cluster EMR dibuat dan cluster tersebut didaftarkan ke DataWorks.

    Sebelum membuat node EMR dan mengembangkan tugas EMR di DataWorks, Anda harus mendaftarkan cluster EMR ke ruang kerja DataWorks. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi EMR.

  • (Diperlukan jika menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat menetapkan peran ini. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambah anggota ruang kerja dan tetapkan peran kepada mereka.

  • Grup sumber daya serverless dibeli dan dikonfigurasi. Konfigurasi mencakup asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan grup sumber daya serverless.

  • Alur kerja dibuat di DataStudio.

    Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.

Batasan

  • Anda hanya dapat menjalankan tugas EMR Trino pada grup sumber daya serverless.

  • Jika ingin mengelola metadata untuk DataLake atau kluster kustom di DataWorks, Anda harus mengonfigurasi EMR-HOOK di kluster terlebih dahulu. Jika tidak mengonfigurasi EMR-HOOK di kluster Anda, metadata tidak dapat ditampilkan secara real-time, log audit tidak dapat dihasilkan, dan garis keturunan data tidak dapat ditampilkan di DataWorks. Tugas tata kelola EMR juga tidak dapat dijalankan. Untuk informasi tentang cara mengonfigurasi EMR-HOOK, lihat Gunakan fitur ekstensi Hive untuk mencatat garis keturunan data dan informasi akses historis.

  • Jika mengaktifkan otentikasi Lightweight Directory Access Protocol (LDAP) untuk Trino, Anda harus masuk ke node master kluster EMR dan mengunduh file keystore di direktori /etc/taihao-apps/trino-conf. Kemudian, lakukan langkah-langkah berikut untuk mengunggah file keystore: Masuk ke Konsol DataWorks. Di panel navigasi di sebelah kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dan klik Go to Management Center. Di panel navigasi di sebelah kiri halaman yang muncul, klik Cluster Management. Kemudian, temukan kluster yang diinginkan dan klik tab Account Mappings. Di sudut kanan atas tab, klik Edit Account Mappings. Pada halaman yang muncul, klik Upload Keystore File untuk mengunggah file keystore.

Langkah 1: Buat node EMR Trino

  1. Pergi ke halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi di sebelah kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih Create Node > EMR > EMR Trino.

  3. Di kotak dialog Create Node, konfigurasikan parameter Name, Engine Instance, Node Type, dan Path. Klik Confirm. Tab konfigurasi node EMR Trino akan muncul.

    Catatan

    Nama node dapat berisi huruf, angka, garis bawah (_), dan titik (.).

Langkah 2: Kembangkan tugas EMR Trino

Klik dua kali nama node yang dibuat untuk pergi ke tab konfigurasi node dan lakukan operasi berikut untuk mengembangkan tugas.

(Opsional) Pilih kluster EMR

Jika beberapa kluster EMR didaftarkan ke ruang kerja Anda, Anda harus memilih satu dari daftar drop-down Instance Mesin EMR di bagian atas tab konfigurasi node berdasarkan kebutuhan bisnis Anda. Jika hanya satu kluster EMR yang didaftarkan ke ruang kerja Anda, kluster EMR digunakan untuk mengembangkan tugas.

image

Konfigurasikan konektor

  • Sebelum menanyakan data dari tabel MySQL, Anda harus mengonfigurasi konektor MySQL bawaan. Untuk informasi lebih lanjut, lihat Konektor MySQL.

  • Sebelum menanyakan data dari tabel Hive, Anda harus mengonfigurasi konektor Hive bawaan. Untuk informasi lebih lanjut, lihat Konektor Hive.

  • Sebelum menanyakan data dari tabel sumber data lainnya, Anda harus mengonfigurasi konektor terkait dari sumber data tersebut. Untuk informasi lebih lanjut, lihat Konfigurasikan konektor.

Kembangkan kode SQL

Di editor SQL, masukkan kode untuk node. Contoh:

-- Gunakan metode
-- SELECT * FROM <katalog>.<skema>.<tabel>;
-- Deskripsi parameter
-- <katalog> menentukan nama sumber data yang diinginkan. 
-- <skema> menentukan nama database yang ingin Anda gunakan. 
-- <tabel> menentukan nama tabel yang ingin Anda tanyakan. 
-- Sebagai contoh, Anda dapat menjalankan pernyataan berikut untuk menanyakan data dari tabel hive_table di database default dari sumber data Hive.
-- Menanyakan data dari tabel Hive.
SELECT * FROM hive.default.hive_table;

-- Sebagai contoh, Anda dapat menjalankan pernyataan berikut untuk menanyakan data dari tabel rt_user di database rt_data dari sumber data MySQL. 
-- Menanyakan data dari tabel MySQL.  
SELECT * FROM mysql.rt_data.rt_user;

-- Lakukan query join pada tabel Hive dan MySQL.
SELECT DISTINCT a.id, a.name,b.rt_name FROM hive.default.hive_table a INNER JOIN mysql.rt_data.rt_user b ON a.id = b.id;

-- Gunakan parameter penjadwalan untuk menanyakan data dari tabel Hive tertentu.
SELECT * FROM hive.default.${table_name};
Catatan

Jalankan tugas Trino

  1. Klik ikon 高级运行 di bilah alat atas. Di kotak dialog Parameters, pilih grup sumber daya yang dibuat untuk penjadwalan dan klik Run.

    Catatan
    • Jika ingin mengakses sumber daya komputasi melalui Internet atau virtual private cloud (VPC), gunakan grup sumber daya untuk penjadwalan yang terhubung ke sumber daya komputasi. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.

    • Jika ingin mengubah grup sumber daya dalam operasi selanjutnya, Anda dapat mengklik ikon 高级运行 (Run with Parameters) untuk mengubah grup sumber daya di kotak dialog Parameter.

    • Jika menggunakan node EMR Trino untuk menanyakan data, hingga 10.000 catatan data dapat dikembalikan, dan ukuran total catatan data yang dikembalikan tidak boleh melebihi 10 MB.

  2. Klik ikon 保存 untuk menyimpan pernyataan SQL.

(Opsional) Konfigurasikan parameter lanjutan

Jika ingin memodifikasi mode eksekusi pernyataan SQL, klik Advanced Settings di panel navigasi di sebelah kanan dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.

Parameter

Deskripsi

FLOW_SKIP_SQL_ANALYZE

Metode eksekusi pernyataan SQL. Nilai valid:

  • true: Beberapa pernyataan SQL dieksekusi pada saat yang sama.

  • false: Hanya satu pernyataan SQL yang dieksekusi pada satu waktu. Ini adalah nilai default.

DATAWORKS_SESSION_DISABLE

Parameter ini cocok untuk pengujian di lingkungan pengembangan ruang kerja DataWorks. Nilai valid:

  • true: Koneksi JDBC dibuat setiap kali pernyataan SQL dieksekusi.

  • false: Koneksi JDBC yang sama digunakan saat pernyataan SQL yang berbeda dieksekusi untuk node yang sama. Ini adalah nilai default.

Langkah 3: Konfigurasikan properti penjadwalan tugas

Jika ingin sistem secara berkala menjalankan tugas pada node, Anda dapat mengklik Properties di panel navigasi di sebelah kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar.

Catatan

Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum mengirimkan tugas.

Langkah 4: Kirim dan terapkan tugas

Setelah tugas dikonfigurasi, Anda harus mengirimkan dan menerapkan tugas. Setelah mengirimkan dan menerapkan tugas, sistem menjalankan tugas pada node secara berkala berdasarkan konfigurasi penjadwalan.

  1. Klik ikon 保存 di bilah alat atas untuk menyimpan node.

  2. Klik ikon 提交 di bilah alat atas untuk mengirimkan tugas pada node.

    Di kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah mengirimkan tugas berdasarkan kebutuhan bisnis Anda.

    Catatan
    • Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum mengirimkan tugas.

    • Anda dapat menggunakan fitur tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi tugas yang disebabkan oleh kode tugas yang tidak valid. Jika mengaktifkan fitur tinjauan kode, kode node yang dikirimkan hanya dapat diterapkan setelah kode node lolos tinjauan kode. Untuk informasi lebih lanjut, lihat Tinjauan kode.

Jika menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas ke lingkungan produksi setelah mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di sudut kanan atas tab konfigurasi node. Untuk informasi lebih lanjut, lihat Terapkan node.

Apa yang harus dilakukan selanjutnya

Setelah mengirimkan dan menerapkan tugas, tugas dijalankan secara berkala berdasarkan konfigurasi penjadwalan. Anda dapat mengklik Operation Center di sudut kanan atas tab konfigurasi node untuk pergi ke Pusat Operasi dan melihat status penjadwalan tugas. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas yang dipicu otomatis.