Trino adalah mesin SQL query terdistribusi open source yang dirancang untuk menjalankan query analitik interaktif dari berbagai sumber data. Anda dapat membuat node E-MapReduce (EMR) Trino untuk menggabungkan sejumlah besar data multidimensi atau menganalisis laporan. Untuk informasi lebih lanjut, lihat Ikhtisar Trino.
Prasyarat
Cluster EMR dibuat dan cluster tersebut didaftarkan ke DataWorks.
Sebelum membuat node EMR dan mengembangkan tugas EMR di DataWorks, Anda harus mendaftarkan cluster EMR ke ruang kerja DataWorks. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi EMR.
(Diperlukan jika menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat menetapkan peran ini. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambah anggota ruang kerja dan tetapkan peran kepada mereka.
Grup sumber daya serverless dibeli dan dikonfigurasi. Konfigurasi mencakup asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan grup sumber daya serverless.
Alur kerja dibuat di DataStudio.
Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.
Batasan
Anda hanya dapat menjalankan tugas EMR Trino pada grup sumber daya serverless.
Jika ingin mengelola metadata untuk DataLake atau kluster kustom di DataWorks, Anda harus mengonfigurasi EMR-HOOK di kluster terlebih dahulu. Jika tidak mengonfigurasi EMR-HOOK di kluster Anda, metadata tidak dapat ditampilkan secara real-time, log audit tidak dapat dihasilkan, dan garis keturunan data tidak dapat ditampilkan di DataWorks. Tugas tata kelola EMR juga tidak dapat dijalankan. Untuk informasi tentang cara mengonfigurasi EMR-HOOK, lihat Gunakan fitur ekstensi Hive untuk mencatat garis keturunan data dan informasi akses historis.
Jika mengaktifkan otentikasi Lightweight Directory Access Protocol (LDAP) untuk Trino, Anda harus masuk ke node master kluster EMR dan mengunduh file keystore di direktori /etc/taihao-apps/trino-conf. Kemudian, lakukan langkah-langkah berikut untuk mengunggah file keystore: Masuk ke Konsol DataWorks. Di panel navigasi di sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dan klik Go to Management Center. Di panel navigasi di sebelah kiri halaman yang muncul, klik Cluster Management. Kemudian, temukan kluster yang diinginkan dan klik tab Account Mappings. Di sudut kanan atas tab, klik Edit Account Mappings. Pada halaman yang muncul, klik Upload Keystore File untuk mengunggah file keystore.
Langkah 1: Buat node EMR Trino
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi di sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih .
Di kotak dialog Create Node, konfigurasikan parameter Name, Engine Instance, Node Type, dan Path. Klik Confirm. Tab konfigurasi node EMR Trino akan muncul.
CatatanNama node dapat berisi huruf, angka, garis bawah (_), dan titik (.).
Langkah 2: Kembangkan tugas EMR Trino
Klik dua kali nama node yang dibuat untuk pergi ke tab konfigurasi node dan lakukan operasi berikut untuk mengembangkan tugas.
(Opsional) Pilih kluster EMR
Jika beberapa kluster EMR didaftarkan ke ruang kerja Anda, Anda harus memilih satu dari daftar drop-down Instance Mesin EMR di bagian atas tab konfigurasi node berdasarkan kebutuhan bisnis Anda. Jika hanya satu kluster EMR yang didaftarkan ke ruang kerja Anda, kluster EMR digunakan untuk mengembangkan tugas.

Konfigurasikan konektor
Sebelum menanyakan data dari tabel MySQL, Anda harus mengonfigurasi konektor MySQL bawaan. Untuk informasi lebih lanjut, lihat Konektor MySQL.
Sebelum menanyakan data dari tabel Hive, Anda harus mengonfigurasi konektor Hive bawaan. Untuk informasi lebih lanjut, lihat Konektor Hive.
Sebelum menanyakan data dari tabel sumber data lainnya, Anda harus mengonfigurasi konektor terkait dari sumber data tersebut. Untuk informasi lebih lanjut, lihat Konfigurasikan konektor.
Kembangkan kode SQL
Di editor SQL, masukkan kode untuk node. Contoh:
-- Gunakan metode
-- SELECT * FROM <katalog>.<skema>.<tabel>;
-- Deskripsi parameter
-- <katalog> menentukan nama sumber data yang diinginkan.
-- <skema> menentukan nama database yang ingin Anda gunakan.
-- <tabel> menentukan nama tabel yang ingin Anda tanyakan.
-- Sebagai contoh, Anda dapat menjalankan pernyataan berikut untuk menanyakan data dari tabel hive_table di database default dari sumber data Hive.
-- Menanyakan data dari tabel Hive.
SELECT * FROM hive.default.hive_table;
-- Sebagai contoh, Anda dapat menjalankan pernyataan berikut untuk menanyakan data dari tabel rt_user di database rt_data dari sumber data MySQL.
-- Menanyakan data dari tabel MySQL.
SELECT * FROM mysql.rt_data.rt_user;
-- Lakukan query join pada tabel Hive dan MySQL.
SELECT DISTINCT a.id, a.name,b.rt_name FROM hive.default.hive_table a INNER JOIN mysql.rt_data.rt_user b ON a.id = b.id;
-- Gunakan parameter penjadwalan untuk menanyakan data dari tabel Hive tertentu.
SELECT * FROM hive.default.${table_name};DataWorks menyediakan scheduling parameters yang nilainya diganti secara dinamis dalam kode node berdasarkan konfigurasi parameter penjadwalan dalam skenario penjadwalan periodik. Anda dapat mendefinisikan variabel dalam kode node dalam format ${Variabel} dan memberi nilai ke variabel di bagian Scheduling Parameter dari tab Properties. Untuk informasi tentang cara mengonfigurasi parameter penjadwalan dan format yang didukung dari parameter penjadwalan, lihat Konfigurasikan dan gunakan parameter penjadwalan dan Format yang didukung dari parameter penjadwalan.
Jika ingin mengubah parameter penjadwalan yang ditetapkan ke variabel dalam kode, klik Run with Parameters di bilah alat atas. Untuk informasi tentang penetapan nilai untuk parameter penjadwalan, lihat Apa saja perbedaan dalam logika penetapan nilai parameter penjadwalan di antara mode Jalankan, Jalankan dengan Parameter, dan Lakukan Pengujian Asap di Lingkungan Pengembangan?.
Jalankan tugas Trino
Klik ikon
di bilah alat atas. Di kotak dialog Parameters, pilih grup sumber daya yang dibuat untuk penjadwalan dan klik Run.CatatanJika ingin mengakses sumber daya komputasi melalui Internet atau virtual private cloud (VPC), gunakan grup sumber daya untuk penjadwalan yang terhubung ke sumber daya komputasi. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.
Jika ingin mengubah grup sumber daya dalam operasi selanjutnya, Anda dapat mengklik ikon
(Run with Parameters) untuk mengubah grup sumber daya di kotak dialog Parameter.Jika menggunakan node EMR Trino untuk menanyakan data, hingga 10.000 catatan data dapat dikembalikan, dan ukuran total catatan data yang dikembalikan tidak boleh melebihi 10 MB.
Klik ikon
untuk menyimpan pernyataan SQL.
(Opsional) Konfigurasikan parameter lanjutan
Jika ingin memodifikasi mode eksekusi pernyataan SQL, klik Advanced Settings di panel navigasi di sebelah kanan dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.
Parameter | Deskripsi |
FLOW_SKIP_SQL_ANALYZE | Metode eksekusi pernyataan SQL. Nilai valid:
|
DATAWORKS_SESSION_DISABLE | Parameter ini cocok untuk pengujian di lingkungan pengembangan ruang kerja DataWorks. Nilai valid:
|
Langkah 3: Konfigurasikan properti penjadwalan tugas
Jika ingin sistem secara berkala menjalankan tugas pada node, Anda dapat mengklik Properties di panel navigasi di sebelah kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar.
Anda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum mengirimkan tugas.
Langkah 4: Kirim dan terapkan tugas
Setelah tugas dikonfigurasi, Anda harus mengirimkan dan menerapkan tugas. Setelah mengirimkan dan menerapkan tugas, sistem menjalankan tugas pada node secara berkala berdasarkan konfigurasi penjadwalan.
Klik ikon
di bilah alat atas untuk menyimpan node.Klik ikon
di bilah alat atas untuk mengirimkan tugas pada node.Di kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah mengirimkan tugas berdasarkan kebutuhan bisnis Anda.
CatatanAnda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum mengirimkan tugas.
Anda dapat menggunakan fitur tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi tugas yang disebabkan oleh kode tugas yang tidak valid. Jika mengaktifkan fitur tinjauan kode, kode node yang dikirimkan hanya dapat diterapkan setelah kode node lolos tinjauan kode. Untuk informasi lebih lanjut, lihat Tinjauan kode.
Jika menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas ke lingkungan produksi setelah mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di sudut kanan atas tab konfigurasi node. Untuk informasi lebih lanjut, lihat Terapkan node.
Apa yang harus dilakukan selanjutnya
Setelah mengirimkan dan menerapkan tugas, tugas dijalankan secara berkala berdasarkan konfigurasi penjadwalan. Anda dapat mengklik Operation Center di sudut kanan atas tab konfigurasi node untuk pergi ke Pusat Operasi dan melihat status penjadwalan tugas. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas yang dipicu otomatis.