Setelah membuat kluster Trino di konsol E-MapReduce (EMR), Anda perlu mengonfigurasi kluster tersebut sebelum dapat menggunakannya. Topik ini menjelaskan cara mengonfigurasi konektor dan pusat penyimpanan metadata untuk data di data lake agar kluster Trino yang telah dibuat dapat digunakan.
Informasi latar belakang
Untuk menggunakan layanan Trino, Anda dapat membuat kluster DataLake, kluster kustom, atau kluster Hadoop dengan layanan Trino terpasang, atau membuat kluster Trino langsung di konsol EMR. Kluster Trino memiliki fitur-fitur berikut:
Mengalokasikan sumber daya eksklusif untuk Trino sehingga layanan lain hampir tidak memengaruhi performanya.
Mendukung penskalaan otomatis.
Mendukung analisis data di data lake dan gudang data real-time.
Tidak menyimpan data.
Hudi dan Iceberg bukan proses dan tidak menggunakan sumber daya kluster.
Jika Hue dan JindoData atau SmartData tidak lagi digunakan, Anda dapat menghentikan layanan tersebut.
Untuk menggunakan kluster Trino, Anda harus membuat kluster DataLake, kluster kustom, atau kluster Hadoop terlebih dahulu, atau menggunakan kluster yang sudah ada sebagai kluster data.
Setelah membuat kluster Trino, Anda perlu melakukan operasi berikut:
Opsional. Mengonfigurasi pusat penyimpanan metadata untuk data di data lake.
Jika parameter Metadata tidak disetel ke DLF Unified Metadata untuk kluster data, Anda dapat melewati konfigurasi di bagian ini.
Mengonfigurasi konektor
Bagian ini menjelaskan cara mengonfigurasi objek kueri dalam konektor yang ingin digunakan. Dalam contoh ini, konektor Hive digunakan.
Buka tab Layanan.
Masuk ke konsol EMR. Di panel navigasi sebelah kiri, klik EMR on ECS.
Di bilah navigasi atas, pilih wilayah tempat kluster Anda berada dan pilih grup sumber daya sesuai kebutuhan bisnis Anda.
Pada halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.
Pada tab Services, temukan layanan Trino dan klik Configure.
Ubah parameter.
Pada tab Configure, klik hive.properties.
Ubah nilai parameter hive.metastore.uri menjadi nilai parameter hive.metastore.uri yang dikonfigurasi untuk layanan Trino di kluster data Anda.
Simpan konfigurasi.
Klik Save.
Di kotak dialog yang muncul, konfigurasikan parameter dan klik Save.
Terapkan konfigurasi.
Klik Deploy Client Configuration.
Di kotak dialog yang muncul, konfigurasikan parameter dan klik OK.
Di pesan Confirm, klik OK.
Mulai ulang layanan Trino. Untuk informasi lebih lanjut, lihat Memulai Ulang Layanan.
Konfigurasikan informasi host.
PentingJika semua data yang ingin dikueri disimpan di Object Storage Service (OSS) atau parameter Lokasi dikonfigurasi saat mengeksekusi pernyataan CREATE TABLE, Anda tidak perlu mengonfigurasi informasi host.
Beberapa tabel Hive mungkin disimpan di direktori default yang ditentukan. Saat mengkueri data yang disimpan di kluster data Anda, Anda harus mengonfigurasi informasi host dari node master kluster data Anda untuk setiap node di kluster Trino agar dapat membaca data dari tabel selama proses kueri.
Metode 1: Masuk ke konsol EMR dan tambahkan skrip kluster atau tindakan bootstrap untuk mengonfigurasi informasi host. Untuk informasi lebih lanjut, lihat Menjalankan Skrip Secara Manual atau Mengelola Tindakan Bootstrap. Kami merekomendasikan metode ini.
Metode 2: Ubah langsung file hosts. Lakukan langkah-langkah berikut:
Dapatkan alamat IP internal dari node master kluster data Anda. Untuk melihat alamat IP internal dari node master, lakukan langkah-langkah berikut: Buka tab Nodes dari kluster data Anda di konsol EMR. Temukan grup node master dan klik ikon
.Masuk ke kluster data Anda. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.
Jalankan perintah
hostnameuntuk mendapatkan nama host dari node master.Sebagai contoh, nama host berada dalam salah satu format berikut:
Kluster Hadoop: emr-header-1.cluster-26****
Jenis kluster lainnya: master-1-1.c-f613970e8c****
Masuk ke kluster Trino. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.
Jalankan perintah berikut untuk mengedit file hosts:
vim /etc/hostsTambahkan konten berikut ke akhir file hosts:
Tambahkan alamat IP internal dan nama host dari node master kluster data Anda ke file hosts yang disimpan di direktori /etc/ setiap node dari kluster Trino.
Kluster Hadoop
192.168.**.** emr-header-1.cluster-26****Jenis kluster lainnya
192.168.**.** master-1-1.c-f613970e8c****
Mengonfigurasi pusat penyimpanan metadata untuk data di data lake
Pusat penyimpanan metadata untuk data di data lake dapat dikonfigurasi secara otomatis saat Anda membuat kluster EMR versi V3.45.0 atau versi minor terbaru, atau V5.11.0 atau versi minor terbaru.
Jika parameter Metadata disetel ke DLF Unified Metadata untuk kluster data Anda, Anda harus mengonfigurasi konektor seperti Hive, Iceberg, dan Hudi. Dalam kasus ini, kueri data tidak lagi bergantung pada kluster data Anda. Anda dapat mengonfigurasi parameter hive.metastore.uri sesuai kebutuhan bisnis Anda. Trino dapat langsung mengakses metadata Data Lake Formation (DLF) dalam akun yang sama.
Tabel berikut menjelaskan parameter yang digunakan untuk mengonfigurasi pusat penyimpanan metadata untuk data di data lake.
Parameter | Deskripsi | Catatan |
hive.metastore | Jenis metastore Hive. | Atur nilainya menjadi DLF. |
dlf.catalog.id | ID katalog DLF. | Secara default, parameter ini disetel ke ID akun Alibaba Cloud Anda. |
dlf.catalog.region | ID wilayah tempat DLF diaktifkan. | Untuk informasi lebih lanjut, lihat Wilayah dan Titik Akhir yang Didukung. Catatan Pastikan nilai parameter ini sesuai dengan titik akhir yang ditentukan oleh parameter dlf.catalog.endpoint. |
dlf.catalog.endpoint | Titik akhir DLF. | Untuk informasi lebih lanjut, lihat Wilayah dan Titik Akhir yang Didukung. Kami merekomendasikan Anda menyetel parameter dlf.catalog.endpoint ke titik akhir VPC DLF. Sebagai contoh, jika Anda memilih wilayah China (Hangzhou), atur parameter dlf.catalog.endpoint ke dlf-vpc.cn-hangzhou.aliyuncs.com. Catatan Anda juga dapat menggunakan titik akhir publik DLF. Sebagai contoh, jika Anda memilih wilayah China (Hangzhou), atur parameter dlf.catalog.endpoint ke dlf.cn-hangzhou.aliyuncs.com. |
dlf.catalog.akMode | Mode AccessKey layanan DLF. | Kami merekomendasikan Anda menyetel parameter ini ke EMR_AUTO. |
dlf.catalog.proxyMode | Mode proxy layanan DLF. | Kami merekomendasikan Anda menyetel parameter ini ke DLF_ONLY. |
dlf.catalog.uid | ID akun Alibaba Cloud Anda. | Untuk mendapatkan ID akun Alibaba Cloud Anda, buka halaman Pengaturan Keamanan. |
Contoh: Mengkueri data di tabel
Jalankan perintah untuk mengakses Trino. Untuk informasi lebih lanjut, lihat Masuk ke Konsol Trino dengan Menjalankan Perintah.
Jalankan perintah berikut untuk mengkueri data di tabel test_hive:
select * from hive.default.test_hive;
