Trino (sebelumnya dikenal sebagai PrestoSQL) adalah mesin query SQL terdistribusi open-source yang dirancang untuk query analitik interaktif. Di E-MapReduce (EMR) versi V3.44.0 dan V5.10.0, PrestoSQL diubah namanya menjadi Trino. Pada versi EMR sebelumnya, PrestoSQL masih muncul di konsol, tetapi sebenarnya menggunakan Trino.
Fitur dasar
Trino dikembangkan menggunakan Java, mudah digunakan, serta menawarkan performa tinggi dan skalabilitas yang kuat. Fitur utama Trino meliputi:
Dukungan untuk standar American National Standards Institute (ANSI) SQL.
Kompatibilitas dengan berbagai sumber data:
Hive
Cassandra
Kafka
MongoDB
MySQL
PostgreSQL
SQL Server
Redis
Redshift
File lokal
Dukungan untuk struktur data tingkat lanjut:
Data array dan peta
Data JSON
Data GIS
Data warna
Skalabilitas yang kuat:
Beragam konektor data
Tipe data kustom
Fungsi SQL kustom
Model pipeline untuk memproses dan mengembalikan data secara real-time.
Antarmuka pemantauan:
Antarmuka web UI untuk melihat proses eksekusi query.
Dukungan protokol Java Management Extensions (JMX).
Arsitektur
Gambar berikut mengilustrasikan arsitektur Trino. 
Trino memiliki arsitektur master/slave khas yang terdiri dari node koordinator dan beberapa node pekerja. Node koordinator menyediakan fitur-fitur berikut:
Menerima dan mengurai permintaan query, menghasilkan rencana eksekusi, lalu memberikan rencana tersebut ke node pekerja untuk dieksekusi.
Memantau status operasi node pekerja. Setiap node pekerja menjaga koneksi heartbeat dengan node koordinator.
Menyimpan data metastore.
Node pekerja menjalankan tugas yang diberikan oleh node koordinator, menggunakan konektor untuk membaca data dari sistem penyimpanan eksternal, memproses data, dan mengirimkan hasilnya ke node koordinator.
Skenario
Trino adalah mesin query SQL terdistribusi untuk layanan gudang data dan analitik data. Trino cocok untuk skenario-skenario berikut:
Ekstrak, transformasi, muat (ETL)
Query ad hoc
Analisis data terstruktur atau semi-terstruktur dalam jumlah besar
Aggregasi data multidimensi dalam jumlah besar dan analisis laporan
Trino adalah produk gudang data. Dukungan untuk transaksi terbatas dan tidak cocok untuk skenario bisnis online.
Manfaat
EMR Trino memiliki keunggulan berikut dibandingkan Trino open-source:
Kemampuan untuk dengan cepat menerapkan kluster Trino dengan ratusan node.
EMR Trino mendukung penskalaan otomatis, memungkinkan penambahan kapasitas kluster dengan mudah.
EMR Trino dapat memproses data yang disimpan di bucket Object Storage Service (OSS).
EMR Trino menyediakan layanan satu atap tanpa memerlukan operasi dan pemeliharaan (O&M).
Istilah
Model data
Model data adalah cara pengorganisasian data. Trino menggunakan tiga tingkat komponen untuk mengelola data: katalog, skema, dan tabel.
Katalog
Katalog mencakup beberapa skema dan merujuk ke sumber data eksternal yang dapat diakses melalui konektor. Anda dapat mengeksekusi pernyataan SQL di Trino untuk mengakses satu atau lebih katalog.
Skema
Skema adalah instance database yang berisi beberapa tabel.
Tabel
Tabel adalah representasi yang sama seperti tabel database biasa.
Konektor
Trino menggunakan konektor untuk terhubung ke berbagai sumber data eksternal. Trino menyediakan antarmuka penyedia layanan standar (SPI), yang memungkinkan pengembangan konektor kustom untuk mengakses sumber data tertentu.
Katalog biasanya dikaitkan dengan jenis konektor tertentu yang dikonfigurasi dalam file Properties katalog. Trino mencakup beberapa konektor bawaan.
Referensi
Ubah nomor versi di http://trino.io/docs/3XX/ sesuai dengan nomor versi komponen Trino. Buka tautan di browser web untuk melihat dokumentasi Trino open-source.
Sebagai contoh, buka https://trino.io/docs/331/ untuk melihat Dokumentasi Trino 331.