Mesin SQL Terdistribusi Trino untuk Analitik Big Data yang Dapat Diskalakan - E-MapReduce

Trino (sebelumnya dikenal sebagai PrestoSQL) adalah mesin query SQL terdistribusi open-source yang dirancang untuk query analitik interaktif. Di E-MapReduce (EMR) versi V3.44.0 dan V5.10.0, PrestoSQL diubah namanya menjadi Trino. Pada versi EMR sebelumnya, PrestoSQL masih muncul di konsol, tetapi sebenarnya menggunakan Trino.

Fitur dasar

Trino dikembangkan menggunakan Java, mudah digunakan, serta menawarkan performa tinggi dan skalabilitas yang kuat. Fitur utama Trino meliputi:

Dukungan untuk standar American National Standards Institute (ANSI) SQL.
Kompatibilitas dengan berbagai sumber data:
- Hive
- Cassandra
- Kafka
- MongoDB
- MySQL
- PostgreSQL
- SQL Server
- Redis
- Redshift
- File lokal
Dukungan untuk struktur data tingkat lanjut:
- Data array dan peta
- Data JSON
- Data GIS
- Data warna
Skalabilitas yang kuat:
- Beragam konektor data
- Tipe data kustom
- Fungsi SQL kustom
Model pipeline untuk memproses dan mengembalikan data secara real-time.
Antarmuka pemantauan:
- Antarmuka web UI untuk melihat proses eksekusi query.
- Dukungan protokol Java Management Extensions (JMX).

Arsitektur

Gambar berikut mengilustrasikan arsitektur Trino. Architecture of Trino

Trino memiliki arsitektur master/slave khas yang terdiri dari node koordinator dan beberapa node pekerja. Node koordinator menyediakan fitur-fitur berikut:

Menerima dan mengurai permintaan query, menghasilkan rencana eksekusi, lalu memberikan rencana tersebut ke node pekerja untuk dieksekusi.
Memantau status operasi node pekerja. Setiap node pekerja menjaga koneksi heartbeat dengan node koordinator.
Menyimpan data metastore.

Node pekerja menjalankan tugas yang diberikan oleh node koordinator, menggunakan konektor untuk membaca data dari sistem penyimpanan eksternal, memproses data, dan mengirimkan hasilnya ke node koordinator.

Skenario

Trino adalah mesin query SQL terdistribusi untuk layanan gudang data dan analitik data. Trino cocok untuk skenario-skenario berikut:

Ekstrak, transformasi, muat (ETL)
Query ad hoc
Analisis data terstruktur atau semi-terstruktur dalam jumlah besar
Aggregasi data multidimensi dalam jumlah besar dan analisis laporan

null

Trino adalah produk gudang data. Dukungan untuk transaksi terbatas dan tidak cocok untuk skenario bisnis online.

Manfaat

EMR Trino memiliki keunggulan berikut dibandingkan Trino open-source:

Kemampuan untuk dengan cepat menerapkan kluster Trino dengan ratusan node.
EMR Trino mendukung penskalaan otomatis, memungkinkan penambahan kapasitas kluster dengan mudah.
EMR Trino dapat memproses data yang disimpan di bucket Object Storage Service (OSS).
EMR Trino menyediakan layanan satu atap tanpa memerlukan operasi dan pemeliharaan (O&M).

Istilah

Model data

Model data adalah cara pengorganisasian data. Trino menggunakan tiga tingkat komponen untuk mengelola data: katalog, skema, dan tabel.

Katalog
Katalog mencakup beberapa skema dan merujuk ke sumber data eksternal yang dapat diakses melalui konektor. Anda dapat mengeksekusi pernyataan SQL di Trino untuk mengakses satu atau lebih katalog.
Skema
Skema adalah instance database yang berisi beberapa tabel.
Tabel
Tabel adalah representasi yang sama seperti tabel database biasa.

Konektor

Trino menggunakan konektor untuk terhubung ke berbagai sumber data eksternal. Trino menyediakan antarmuka penyedia layanan standar (SPI), yang memungkinkan pengembangan konektor kustom untuk mengakses sumber data tertentu.

Katalog biasanya dikaitkan dengan jenis konektor tertentu yang dikonfigurasi dalam file Properties katalog. Trino mencakup beberapa konektor bawaan.

Referensi

Ubah nomor versi di http://trino.io/docs/3XX/ sesuai dengan nomor versi komponen Trino. Buka tautan di browser web untuk melihat dokumentasi Trino open-source.

Sebagai contoh, buka https://trino.io/docs/331/ untuk melihat Dokumentasi Trino 331.