Topik ini menjelaskan cara membuat dan mengonfigurasi cluster StarRocks.
Prasyarat
VPC (virtual private cloud) dan vSwitch telah dibuat di wilayah tempat Anda ingin membuat cluster StarRocks. Untuk informasi lebih lanjut, lihat Buat dan kelola VPC dan Buat dan kelola vSwitch.
Prosedur
Buka halaman pembuatan cluster.
Masuk ke Konsol EMR. Di panel navigasi sebelah kiri, klik EMR pada ECS.
Opsional. Di bilah navigasi atas, pilih wilayah tempat Anda ingin membuat cluster dan pilih grup sumber daya sesuai kebutuhan bisnis Anda.
Wilayah cluster tidak dapat diubah setelah cluster dibuat.
Semua grup sumber daya dalam akun Anda ditampilkan secara default.
Di halaman EMR pada ECS, klik Create Cluster.
Konfigurasikan cluster.
Untuk membuat cluster, Anda harus mengonfigurasi parameter perangkat lunak, perangkat keras, dan dasar sesuai dengan panduan wizard.
PentingSetelah cluster dibuat, Anda tidak dapat mengubah parameternya kecuali nama cluster. Pastikan semua parameter dikonfigurasi dengan benar saat membuat cluster.
Konfigurasikan parameter perangkat lunak.
Parameter
Contoh
Deskripsi
Region
Tiongkok (Hangzhou)
Wilayah tempat Anda ingin membuat cluster. Anda tidak dapat mengubah wilayah cluster setelah cluster dibuat.
Business Scenario
Analisis Data
Pilih Data Analytics.
Product Version
EMR-5.19.0
Versi EMR. Secara default, versi terbaru dipilih.
High Service Availability
Nonaktif
Secara default, saklar ini dimatikan. Jika Anda menyalakan saklar ini, tiga node master akan dibuat di cluster untuk memastikan ketersediaan proses ResourceManager dan NameNode. Anda juga dapat memodifikasi jumlah node master.
Optional Services
STARROCKS3
Layanan lain yang dapat Anda pilih berdasarkan kebutuhan bisnis Anda. Secara default, proses terkait untuk layanan yang Anda tentukan dijalankan.
Collect Service Operational Logs
Aktif
Menentukan apakah akan mengaktifkan pengumpulan log untuk semua layanan. Secara default, saklar ini dihidupkan untuk mengumpulkan log operasional layanan cluster Anda. Log digunakan hanya untuk diagnosis cluster.
Setelah membuat kluster, Anda dapat memodifikasi parameter Collection Status of Service Operational Logs di tab Basic Information.
PentingJika Anda mematikan saklar ini, pemeriksaan kesehatan cluster EMR dan dukungan teknis terkait layanan akan dibatasi. Untuk informasi lebih lanjut tentang cara menonaktifkan pengumpulan log dan dampak dari penonaktifan pengumpulan log, lihat Bagaimana cara menghentikan pengumpulan log operasional layanan?
StarRocks Architecture
Shared-nothing
Parameter ini hanya tersedia jika Anda memilih STARROCKS3.
Arsitektur StarRocks. Nilai valid:
Shared-nothing: Dalam arsitektur ini, sumber daya komputasi terintegrasi dengan sumber daya penyimpanan, dan data disimpan di disk lokal node komputasi (CN). Ini adalah nilai default.
Opsi ini cocok untuk skenario pemrosesan analitik online (OLAP) yang memerlukan pemrosesan real-time dan kueri cepat, seperti analisis data dan pembuatan laporan business intelligence (BI).
Shared-data: Dalam arsitektur ini, sumber daya komputasi dan penyimpanan dipisahkan. CN digunakan untuk menjalankan tugas kueri, dan data disimpan di sistem distribusi eksternal. Hal ini meningkatkan fleksibilitas dan keandalan sistem.
Opsi ini cocok untuk skenario yang memerlukan penyimpanan data berskala besar dan komputasi elastis.
DLF Unified Metadata
Dipilih
Secara default, kotak centang dipilih. Ini menunjukkan bahwa metadata disimpan di Data Lake Formation (DLF).
Setelah Anda mengaktifkan DLF, sistem memilih DLF catalog untuk Anda menyimpan metadata. ID akun Anda digunakan secara default. Jika Anda ingin cluster yang berbeda dikaitkan dengan katalog DLF yang berbeda, Anda dapat melakukan operasi berikut untuk membuat katalog DLF:
Klik Create Catalog. Di pop-up yang muncul, masukkan ID katalog dan klik OK.
Pilih katalog yang Anda buat dari daftar drop-down DLF Catalog.
Advanced Settings
Nonaktif
Custom Software Configuration: menyesuaikan pengaturan perangkat lunak. Anda dapat menggunakan file JSON untuk menyesuaikan parameter komponen dasar yang diperlukan untuk cluster, seperti Hadoop, Spark, dan Hive. Secara default, saklar ini dimatikan.
Konfigurasikan parameter perangkat keras.
Parameter
Contoh
Deskripsi
Billing Method
Bayar sesuai pemakaian
Langganan dipilih secara default. EMR mendukung metode penagihan berikut:
Pay-as-you-go: metode penagihan yang memungkinkan Anda membayar cluster setelah Anda menggunakan cluster. Sistem menagih Anda untuk cluster berdasarkan jam sebenarnya cluster tersebut digunakan. Tagihan dihasilkan setiap jam tepat di awal setiap jam. Kami merekomendasikan agar Anda menggunakan cluster bayar sesuai pemakaian untuk pekerjaan tes jangka pendek atau pekerjaan yang dijadwalkan secara dinamis.
Subscription: metode penagihan yang memungkinkan Anda menggunakan cluster hanya setelah Anda membayar cluster.
CatatanKami merekomendasikan agar Anda membuat cluster pay-as-you-go untuk uji coba. Jika cluster lulus uji, Anda dapat membuat cluster subscription untuk produksi.
Zone
Zona I
Zona tempat Anda ingin membuat cluster. Zona adalah area geografis yang berbeda yang terletak di wilayah yang sama. Mereka saling terhubung melalui jaringan internal. Dalam kebanyakan kasus, Anda dapat menggunakan zona yang dipilih secara default.
VPC
starrocks_test/vpc-bp1f4epmkvncimpgs****
Secara default, VPC yang ada dipilih.
Jika Anda ingin menggunakan VPC baru, pergi ke konsol VPC untuk membuat satu. Untuk informasi lebih lanjut, lihat Buat dan kelola VPC.
vSwitch
vsw_test/vsw-bp1e2f5fhaplp0g6p****
Pilih vSwitch di zona tertentu dari VPC. Jika tidak ada vSwitch yang tersedia di zona tersebut, pergi ke konsol VPC untuk membuat vSwitch di zona tersebut. Untuk informasi lebih lanjut, lihat Buat dan kelola vSwitch.
Default Security Group
sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****
Grup keamanan cluster. Secara default, grup keamanan yang ada dipilih. Untuk informasi lebih lanjut tentang grup keamanan, lihat Ikhtisar.
Anda juga dapat mengklik create a new security group untuk membuat grup keamanan di konsol Elastic Compute Service (ECS). Untuk informasi lebih lanjut, lihat Buat grup keamanan.
PentingJangan gunakan grup keamanan tingkat lanjut yang dibuat di konsol ECS.
Node Group
Nilai default
Grup node cluster. Anda dapat memilih jenis instance berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Keluarga Instance.
Master node group: menjalankan proses kontrol, seperti ResourceManager dan NameNode.
Core node group: menyimpan semua data cluster. Anda dapat menambahkan node inti berdasarkan kebutuhan bisnis Anda setelah cluster dibuat.
Task node group: tidak menyimpan data dan digunakan untuk menyesuaikan kemampuan komputasi cluster. Tidak ada grup node tugas yang dikonfigurasi secara default. Anda dapat mengonfigurasi grup node tugas berdasarkan kebutuhan bisnis Anda.
PentingAnda dapat memilih Bayar sesuai pemakaian, Instance Preemptible, atau Langganan untuk parameter Metode Penagihan grup node tugas.
Add to Deployment Set: Jika Anda menyalakan saklar Ketersediaan Layanan Tinggi, node master ditambahkan ke set penyebaran secara default. Set penyebaran digunakan untuk mengontrol distribusi instance ECS. Untuk informasi lebih lanjut, lihat Set Penyebaran.
System Disk: Anda dapat memilih SSD standar, SSD ditingkatkan, atau disk ultra berdasarkan kebutuhan bisnis Anda. Anda dapat menyesuaikan ukuran disk sistem berdasarkan kebutuhan bisnis Anda.
Data Disk: Anda dapat memilih SSD standar, SSD ditingkatkan, atau disk ultra berdasarkan kebutuhan bisnis Anda. Anda dapat menyesuaikan ukuran disk data berdasarkan kebutuhan bisnis Anda.
CatatanJika Anda memilih SSD ditingkatkan, Anda dapat menentukan level performa (PL) yang berbeda untuk SSD ditingkatkan berdasarkan kapasitas disk untuk memenuhi persyaratan performa cluster yang berbeda. Level performa default adalah PL1. Saat Anda mengonfigurasi disk sistem, Anda dapat memilih SSD ditingkatkan dengan level performa berikut: PL0, PL1, dan PL2. Saat Anda mengonfigurasi disk data, Anda dapat memilih SSD ditingkatkan dengan level performa berikut: PL0, PL1, PL2, dan PL3. Untuk informasi lebih lanjut, lihat Disk.
Instances: Satu node master dikonfigurasi secara default. Jika Anda menyalakan saklar Ketersediaan Layanan Tinggi, beberapa node master dapat dikonfigurasi.
Dua node inti dikonfigurasi di grup node inti secara default. Anda dapat mengubah jumlah node inti berdasarkan kebutuhan bisnis Anda.
Additional Security Group: Grup keamanan tambahan memungkinkan interaksi antara sumber daya eksternal dan aplikasi yang berbeda. Anda dapat mengaitkan grup node dengan hingga dua grup keamanan tambahan.
Assign Public Network IP: menentukan apakah akan mengaitkan alamat EIP dengan cluster. Saklar ini dimatikan secara default. Anda dapat menetapkan alamat IP publik hanya ke grup node cluster DataLake.
CatatanJika Anda tidak menyalakan saklar ini tetapi ingin mengakses cluster melalui Internet setelah Anda membuat cluster, Anda harus mengajukan permohonan untuk alamat IP publik di ECS. Untuk informasi tentang cara mengajukan permohonan untuk alamat EIP, lihat Ajukan Permohonan untuk EIP.
Konfigurasikan parameter dasar.
Konfigurasikan parameter di langkah Basic Configuration.
Parameter
Contoh
Deskripsi
Cluster Name
Emr-StarRocks
Nama cluster. Nama harus memiliki panjang 1 hingga 64 karakter dan hanya dapat berisi huruf, angka, tanda hubung (-), dan garis bawah (_).
Identity Credentials
Kata Sandi
Key Pair: pasangan kunci SSH yang digunakan untuk masuk ke instance Linux. Nilai ini dipilih secara default.
Untuk informasi tentang cara menggunakan pasangan kunci, lihat Ikhtisar.
Password: kata sandi yang digunakan untuk masuk ke node master (instance Linux).
Kata sandi harus memiliki panjang 8 hingga 30 karakter dan harus berisi huruf besar, huruf kecil, angka, dan karakter khusus.
Karakter khusus berikut didukung: ! @ # $ % ^ & *
Opsional. Jika key pair digunakan untuk otentikasi identitas, Anda dapat mengklik Save as Cluster Template untuk menyimpan konfigurasi cluster saat ini sebagai template cluster.
Di kotak dialog Save as Cluster Template, konfigurasikan parameter Cluster Template Name dan Cluster Template Resource Group.
Parameter
Deskripsi
Cluster Template Name
Masukkan nama template cluster untuk memudahkan manajemen template. Nama harus memiliki panjang 1 hingga 64 karakter dan hanya dapat berisi huruf, angka, tanda hubung (-), dan garis bawah (_).
Cluster Template Resource Group
Pilih grup sumber daya yang ada berdasarkan kebutuhan bisnis Anda untuk mengelola template cluster berdasarkan grup.
Jika Anda ingin menggunakan grup sumber daya baru, klik Create Resource Group untuk membuat satu. Untuk informasi lebih lanjut, lihat Buat grup sumber daya.
Klik OK.
Template cluster dibuat di panel Manage Cluster Templates. Untuk informasi lebih lanjut tentang template cluster, lihat Buat template cluster.
Klik Confirm.
Segarkan halaman untuk melihat kemajuan pembuatan. Saat Status menjadi Running, cluster telah dibuat.