Trino adalah mesin kueri SQL terdistribusi open-source yang dirancang untuk analitik interaktif pada berbagai sumber data. Anda dapat membuat node E-MapReduce (EMR) Trino untuk agregasi data multidimensi skala besar atau analisis laporan. Untuk informasi selengkapnya, lihat Trino.
Prasyarat
Kluster EMR telah dibuat dan didaftarkan ke ruang kerja DataWorks Anda.
Untuk membuat node EMR dan mengembangkan task EMR, Anda harus terlebih dahulu mendaftarkan kluster EMR ke ruang kerja DataWorks Anda. Petunjuknya tersedia di DataStudio (legacy): Asosiasikan resource komputasi EMR.
(Opsional) Jika Anda menggunakan RAM user untuk mengembangkan task, tambahkan RAM user tersebut ke ruang kerja dan berikan peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, jadi berikan dengan hati-hati. Petunjuk menambahkan anggota tersedia di Tambahkan anggota ruang kerja.
Anda telah membeli dan mengonfigurasi kelompok sumber daya serverless, termasuk mengasosiasikannya dengan ruang kerja dan menyiapkan konektivitas jaringan. Informasi selengkapnya tersedia di Gunakan kelompok sumber daya serverless.
Anda telah membuat alur kerja di DataStudio.
Di DataStudio, alur kerja digunakan untuk mengorganisasi task pengembangan untuk berbagai mesin komputasi. Oleh karena itu, Anda harus membuat alur kerja sebelum membuat node. Petunjuknya tersedia di Buat alur kerja.
Batasan
Task EMR Trino hanya dapat dijalankan pada kelompok sumber daya serverless.
Untuk mengelola metadata DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Tanpa konfigurasi ini, DataWorks tidak dapat menampilkan metadata secara real-time, menghasilkan log audit, menampilkan alur data, atau menjalankan task tata kelola terkait EMR. Petunjuk konfigurasi EMR-HOOK tersedia di Konfigurasikan EMR-HOOK untuk Hive.
Jika otentikasi Lightweight Directory Access Protocol (LDAP) diaktifkan untuk Trino, login ke node master EMR dan unduh file keystore dari direktori /etc/taihao-apps/trino-conf. Selanjutnya, login ke Konsol DataWorks. Di panel navigasi kiri, klik . Pilih ruang kerja target dari daftar drop-down dan klik Go to Management Center. Di panel navigasi kiri, klik Cluster Management. Temukan kluster EMR target, buka tab Account Mappings, klik Edit Account Mappings, lalu klik Upload Keystore File untuk mengunggah file tersebut.
Langkah 1: Buat node EMR Trino
Buka halaman DataStudio.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Klik kanan alur kerja target dan pilih .
Di kotak dialog Create Node, masukkan Name dan pilih Engine Instance, Node Type, dan Path. Klik Confirm untuk membuka editor node.
CatatanNama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).
Langkah 2: Kembangkan task EMR Trino
Klik ganda node yang telah dibuat untuk membuka editor task.
(Opsional) Pilih kluster EMR
Jika ruang kerja Anda memiliki beberapa kluster EMR terdaftar, Anda dapat memilih kluster yang sesuai di bagian atas editor node. Jika hanya satu yang terdaftar, DataWorks akan menggunakannya secara default.

Konfigurasi konektor
Untuk mengkueri tabel MySQL, Anda harus mengonfigurasi konektor EMR Trino bawaan. Detailnya tersedia di Konfigurasikan konektor MySQL.
Untuk mengkueri tabel Hive, Anda harus mengonfigurasi konektor EMR Trino bawaan. Detailnya tersedia di Konfigurasikan konektor Hive.
Untuk mengkueri tabel dari sumber data lain, konfigurasikan konektor bawaan yang sesuai. Informasi selengkapnya tersedia di Konfigurasikan konektor.
Edit kode SQL
Masukkan kode task di editor SQL. Kode berikut merupakan contoh.
-- Penggunaan
-- SELECT * FROM <catalog>.<schema>.<table>;
-- Penjelasan parameter
-- <catalog>: Nama sumber data yang akan dihubungkan.
-- <schema>: Nama database yang akan digunakan.
-- <table>: Tabel yang akan dikueri.
-- Contohnya, untuk melihat data di hive_table dalam database default dari sumber data Hive:
-- Kueri tabel Hive
SELECT * FROM hive.default.hive_table;
-- Contohnya, untuk melihat data di rt_user dalam database rt_data kustom dari sumber data MySQL:
-- Kueri tabel MySQL
SELECT * FROM mysql.rt_data.rt_user;
-- Gabungkan tabel Hive dan tabel MySQL
SELECT DISTINCT a.id, a.name,b.rt_name FROM hive.default.hive_table a INNER JOIN mysql.rt_data.rt_user b ON a.id = b.id;
-- Kueri tabel Hive menggunakan parameter penjadwalan
SELECT * FROM hive.default.${table_name};DataWorks menyediakan scheduling parameters untuk meneruskan argumen secara dinamis ke kode Anda saat dijalankan terjadwal. Anda dapat mendefinisikan variabel dalam kode dengan format ${variable_name}. Di panel navigasi kanan, buka Properties > Scheduling Parameter untuk memberikan nilai pada variabel tersebut. Informasi lebih lanjut tentang format dan konfigurasi yang didukung tersedia di Format parameter penjadwalan dan Konfigurasikan dan gunakan parameter penjadwalan.
Jika Anda perlu mengubah nilai parameter untuk suatu eksekusi, klik Run with Parameters di bilah alat. Informasi lebih lanjut tentang logika pemberian nilai tersedia di Perbedaan logika pemberian nilai antara Run, Run with Parameters, dan smoke testing di lingkungan pengembangan.
Jalankan tugas SQL
Klik ikon
di bilah alat. Di kotak dialog Parameters, pilih kelompok sumber daya penjadwalan dan klik Run.CatatanUntuk mengakses resource komputasi melalui internet publik atau Virtual Private Cloud (VPC), Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas jaringan dengan resource tersebut. Informasi selengkapnya tersedia di Solusi konektivitas jaringan.
Jika Anda perlu mengubah kelompok sumber daya untuk eksekusi berikutnya, klik ikon Run with Parameters
dan pilih kelompok sumber daya penjadwalan yang berbeda.Saat Anda mengkueri data menggunakan node EMR Trino, satu kueri dapat mengembalikan maksimal 10.000 catatan, dan ukuran total data tidak boleh melebihi 10 MB.
Klik ikon
untuk menyimpan kode SQL.
(Opsional) Parameter lanjutan
Jika Anda perlu menyesuaikan cara eksekusi pernyataan SQL, klik Advanced Settings di panel navigasi kanan untuk mengonfigurasi parameter tersebut.
Parameter | Deskripsi |
FLOW_SKIP_SQL_ANALYZE | Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
|
DATAWORKS_SESSION_DISABLE | Berlaku untuk eksekusi uji di lingkungan pengembangan. Nilai yang valid:
|
Langkah 3: Konfigurasikan penjadwalan task
Untuk menjadwalkan task, klik Scheduling Configuration di sebelah kanan dan konfigurasikan propertinya. Informasi selengkapnya tersedia di Ikhtisar.
Konfigurasikan Rerun Property dan Upstream Dependent Node sebelum mengirimkan.
Langkah 4: Kirim dan deploy task
Setelah Anda mengonfigurasi task, kirim dan deploy task tersebut. Setelah dideploy, node akan berjalan secara berkala sesuai konfigurasi penjadwalannya.
Klik ikon
di bilah alat untuk menyimpan node.Klik ikon
di bilah alat untuk mengirimkan task node.Di kotak dialog Submit, masukkan Change description dan pilih apakah akan melakukan tinjauan kode setelah pengiriman.
CatatanAnda harus mengonfigurasi properti Rerun dan Parent Nodes sebelum dapat mengirimkan node.
Tinjauan kode membantu memastikan kualitas kode task Anda dan mencegah kesalahan yang mungkin terjadi jika kode yang rusak dideploy ke lingkungan produksi. Jika tinjauan kode diaktifkan, reviewer harus menyetujui kode yang dikirimkan sebelum dapat dideploy. Informasi selengkapnya tersedia di Tinjauan kode.
Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendeploy task ke lingkungan produksi setelah mengirimkannya. Untuk melakukannya, klik Deploy di pojok kanan atas editor node. Petunjuknya tersedia di Deploy task.
Langkah selanjutnya
Setelah dideploy, task akan berjalan secara berkala sesuai konfigurasinya. Anda dapat mengklik Operation Center di pojok kanan atas editor node untuk melihat status penjadwalan task yang dipicu otomatis. Detailnya tersedia di Kelola task yang dipicu otomatis.
FAQ
P: Eksekusi node gagal karena timeout koneksi.

J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar resource komputasi untuk menginisialisasi resource tersebut. Di kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

