全部产品
Search
文档中心

E-MapReduce:Memulai dengan instans yang memiliki sumber daya penyimpanan dan komputasi terpisah

更新时间:Nov 10, 2025

Instans dengan sumber daya penyimpanan dan komputasi terpisah sangat ideal untuk skenario bisnis yang sensitif terhadap biaya penyimpanan dan memiliki persyaratan efisiensi kueri yang rendah, seperti aplikasi analisis multidimensi pemrosesan analitik daring (OLAP) dan gudang data. Instans ini juga cocok untuk mengkueri data di data lake, seperti Apache Hive, Apache Iceberg, Apache Hudi, dan Apache Paimon. Platform yang didukung meliputi Object Storage Service (OSS), OSS-HDFS, dan Hadoop Distributed File System (HDFS). Dengan instans ini, Anda dapat langsung mengkueri dan menganalisis data di data lake tanpa perlu memigrasikan data tersebut. Performanya tiga hingga lima kali lebih tinggi dibandingkan Presto. Jenis instans ini menggunakan arsitektur pemisahan penyimpanan-komputasi dan menyimpan data di Alibaba Cloud OSS.

Prasyarat

  • Anda telah mendaftarkan Akun Alibaba Cloud dan menyelesaikan verifikasi identitas.

  • Jika Anda adalah pengguna Resource Access Management (RAM), Anda telah diberikan kebijakan sistem AliyunEMRStarRocksFullAccess. Untuk informasi selengkapnya, lihat Memberikan izin kepada pengguna RAM.

    Catatan

    Kebijakan sistem AliyunEMRStarRocksFullAccess diperlukan untuk membuat dan mengelola instans StarRocks.

Perhatian

Lingkungan runtime kode dikelola dan dikonfigurasi oleh pemilik lingkungan tersebut.

Prosedur

Langkah 1: Membuat instans StarRocks dengan sumber daya penyimpanan dan komputasi terpisah

  1. Buka halaman daftar instans EMR Serverless StarRocks.

    1. Masuk ke Konsol E-MapReduce.

    2. Pada panel navigasi sebelah kiri, pilih EMR Serverless > StarRocks.

    3. Pada bilah menu atas, pilih wilayah yang diperlukan.

  2. Pada halaman Instance List, klik Create Instance.

  3. Pada halaman E-MapReduce Serverless StarRocks, konfigurasikan parameter instans.

    Item Konfigurasi

    Contoh

    Deskripsi

    Product Type

    Bayar sesuai pemakaian

    Pilih Pay-as-you-go. Untuk informasi selengkapnya tentang penagihan, lihat Bayar sesuai pemakaian.

    Region

    Tiongkok (Beijing)

    Lokasi fisik instans.

    Penting

    Anda tidak dapat mengubah wilayah setelah instans dibuat. Pilih wilayah dengan hati-hati.

    Network And Zone

    • vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    • Zona I

    • vsw_i/vsw-bp1e2f5fhaplp0g6p****

    Pilih informasi virtual private cloud, zona, dan vSwitch yang sesuai.

    • Virtual private cloud (VPC): VPC adalah lingkungan jaringan terisolasi yang Anda definisikan di Alibaba Cloud. Anda memiliki kontrol penuh atas VPC Anda.

      Pilih VPC yang sudah ada, atau klik Create VPC untuk membuka Konsol VPC dan membuatnya. Untuk informasi selengkapnya, lihat Membuat dan mengelola VPC.

      Catatan
      • Saat membuat VPC, blok CIDR IPv4 harus dipilih dari salah satu dari tiga rentang jaringan pribadi berikut yang didefinisikan dalam RFC 1918:

        • 10.0.0.0/8 (10.0.0.0 hingga 10.255.255.255)

        • 172.16.0.0/12 (172.16.0.0 hingga 172.31.255.255)

        • 192.168.0.0/16 (192.168.0.0 hingga 192.168.255.255)

      • Jika instans Serverless StarRocks Anda perlu mengakses internet, misalnya untuk mengimpor data atau mengkueri tabel eksternal, pastikan VPC-nya memiliki akses internet. Anda dapat menerapkan Internet NAT gateway di VPC dan mengaktifkan fitur SNAT. Hal ini memungkinkan instans Serverless StarRocks mengakses sumber daya internet melalui gerbang tersebut. Untuk informasi selengkapnya, lihat Menggunakan fitur SNAT Internet NAT gateway untuk mengakses internet.

    • Zona: Zona tempat instans berada.

    • vSwitch: vSwitch adalah modul jaringan dasar dari VPC yang digunakan untuk menghubungkan berbagai sumber daya cloud.

      Pilih vSwitch yang sudah ada, atau klik Create VSwitch untuk membuka Konsol VPC dan membuatnya. Untuk informasi selengkapnya, lihat Membuat dan mengelola vSwitch.

    Instance Type

    Pemisahan penyimpanan-komputasi

    Cocok untuk skenario dengan persyaratan efisiensi kueri yang relatif rendah, seperti analisis multidimensi OLAP, analitik data lake, kueri federasi pada tabel eksternal, analitik data real-time, dan gudang data.

    Instance Series

    Edisi Standar

    Mendukung Starter Edition dan Standard Edition. Untuk informasi selengkapnya, lihat Seri instans.

    Catatan

    Edisi Starter hanya tersedia di wilayah Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Shenzhen), dan Tiongkok (Hangzhou).

    StarRocks Version

    3.3

    Nomor versi komunitas StarRocks.

    FE Specifications

    • Jenis Spesifikasi: Standard

    • CU Komputasi: 8 CU

    • Disk Data: PL1 ESSD,

    • Ketersediaan tinggi: Diaktifkan secara default.

    • Jumlah Node: 3

    • Penyeimbangan Beban: PrivateZone Bawaan

    • Jenis spesifikasi: Jenis spesifikasi node FE bervariasi tergantung pada Seri instans StarRocks.

      • Starter Edition: Mendukung Standard.

      • Standard Edition: Mendukung spesifikasi Standard dan Memory-enhanced.

    • Compute CU: Pilih jumlah unit komputasi (CU).

      Pilih spesifikasi CU yang sesuai sesuai kebutuhan. Untuk informasi selengkapnya tentang biaya CU, lihat Item penagihan.

    • Data Disk: Hanya mendukung PL1 ESSD. Ukuran disk data berkisar antara 100 GB hingga 65.000 GB, dengan ukuran langkah 100.

      Untuk informasi selengkapnya tentang disk cloud, lihat ESSD.

    • High Availability: Diaktifkan secara default. Edisi Standar mendukung ketersediaan tinggi (HA). Saat Anda mengaktifkan HA, jumlah node FE StarRocks meningkat dari 1 menjadi 3 untuk mengurangi risiko kegagalan.

      Penting

      Aktifkan ketersediaan tinggi untuk lingkungan produksi.

    • Number Of Nodes: Jumlah node FE. Nilainya dapat berupa angka ganjil dari 1 hingga 11.

    • Load Balancing: Metode berikut didukung.

      • Built-in PrivateZone: Menggunakan resolusi nama domain PrivateZone untuk menyeimbangkan lalu lintas secara otomatis. Tidak ada biaya tambahan. Cocok untuk skenario ringan atau lingkungan yang sensitif terhadap biaya.

        Cocok untuk lingkungan non-produksi atau layanan dengan persyaratan rendah terhadap performa penyeimbangan beban.

      • Server Load Balancer (SLB): Menggunakan layanan SLB untuk mencapai penyeimbangan beban berkinerja-tinggi. Direkomendasikan untuk lingkungan produksi, terutama untuk layanan dengan persyaratan tinggi terhadap performa dan keandalan.

        Fitur untuk menghapus leader FE dari lalu lintas kueri hanya tersedia setelah SLB diaktifkan.

        Anda harus mengaktifkan layanan SLB, yang akan menimbulkan biaya tambahan. Untuk informasi selengkapnya, lihat Ikhtisar Penagihan CLB.

    CN Specifications

    • Jenis Spesifikasi: Standard

    • CU Komputasi: 8 CU

    • Disk Data: PL1 ESSD, 200 GB, 1

    • Jumlah Node: 3

    • Jenis spesifikasi: Jenis spesifikasi node CN bervariasi tergantung pada Seri instans StarRocks.

      • Starter Edition: Mendukung Standard.

      • Standard Edition: Mendukung spesifikasi berikut.

        • Standard: Spesifikasi rekomendasi default. 1 CU = 1 core CPU + 4 GiB memori. Konfigurasi ini menggunakan SSD enterprise (ESSD) sebagai solusi penyimpanan untuk StarRocks.

        • Memory-enhanced: 1 RCU = 1 core CPU + 8 GiB memori. Jenis ini cocok untuk skenario intensif memori, seperti skenario dengan banyak kueri kompleks atau permintaan konkuren tinggi. ESSD digunakan sebagai solusi penyimpanan untuk StarRocks.

        • Network-enhanced: 1 NCU = 1 core CPU + 4 GiB memori. Lebar pita jaringan lebih dari dua kali lipat dibandingkan spesifikasi standar. Jenis ini cocok untuk skenario yang melibatkan pemindaian data dalam jumlah besar di tabel eksternal. ESSD digunakan untuk penyimpanan StarRocks.

        • High-performance Storage: Pilih spesifikasi detail sesuai kebutuhan. Jenis spesifikasi ini menggunakan SSD lokal sebagai disk data untuk penyimpanan StarRocks. Cocok untuk skenario dengan persyaratan ketat terhadap performa I/O penyimpanan.

        • Large-capacity Storage: Pilih spesifikasi detail sesuai kebutuhan. Jenis spesifikasi ini menggunakan HDD lokal sebagai disk data untuk penyimpanan StarRocks. Cocok untuk skenario dengan volume data yang sangat besar. Jenis ini dapat secara efektif mengurangi biaya penyimpanan keseluruhan tetapi memiliki persyaratan performa I/O penyimpanan yang relatif rendah.

    • Compute CU: Pilih jumlah unit komputasi (CU).

      Pilih spesifikasi CU yang sesuai sesuai kebutuhan. Untuk informasi selengkapnya tentang biaya CU, lihat Item penagihan.

    • Data Disk: Mendukung PL0 ESSD, PL1 ESSD (recommended), PL2 ESSD, PL3 ESSD, Elastic Ephemeral Disk (Standard Edition), dan Elastic Ephemeral Disk (Premium Edition). Untuk informasi selengkapnya tentang biaya disk cloud dan disk sementara elastis, lihat Item penagihan.

      Untuk informasi selengkapnya, lihat ESSD dan Disk sementara elastis.

      Catatan
      • Anda dapat memasukkan kapasitas penyimpanan yang dibutuhkan, dan sistem akan secara otomatis memberikan konfigurasi rekomendasi default. Jika kapasitas disk cloud yang Anda pilih melebihi ambang batas yang direkomendasikan, sistem akan menampilkan prompt untuk membantu Anda melakukan penyesuaian yang tepat guna memastikan performa optimal.

      • Hanya spesifikasi Standard, Memory-enhanced, dan Compute-enhanced yang mendukung disk sementara elastis. Disk sementara elastis memiliki keterbatasan pada wilayah dan zona.

    • Number Of Nodes: Jumlah node CN. Nilainya dapat berkisar dari 1 hingga 100.

    Instance Name

    Nama instans kustom.

    Nama instans. Nama harus terdiri dari 1 hingga 64 karakter dan dapat berisi karakter Tionghoa, huruf, angka, tanda hubung (-), dan garis bawah (_).

    Administrator

    admin

    Administrator yang digunakan untuk mengelola StarRocks. Nilai default-nya adalah admin dan tidak dapat diubah.

    Logon Password dan Confirm Password

    Kata sandi kustom.

    Kata sandi untuk administrator bawaan `admin` instans StarRocks. Catat kata sandi ini. Anda memerlukannya untuk mengelola dan menggunakan instans StarRocks. Jika Anda lupa kata sandi, Anda dapat mengatur ulang. Untuk informasi selengkapnya, lihat Bagaimana cara mengatur ulang kata sandi instans?

    Untuk informasi selengkapnya tentang parameter instans, lihat Membuat instans.

  4. Baca dan terima Ketentuan Layanan, klik Create Instance, lalu selesaikan pembayaran sesuai petunjuk.

    Setelah menyelesaikan pembayaran, kembali ke halaman manajemen instans untuk melihat instans baru. Instans berhasil dibuat saat Status-nya berubah menjadi Running.

Langkah 2: Menghubungkan ke instans StarRocks

  1. Pada halaman Instance List, klik Connect To Instance di kolom Actions.

    Anda juga dapat menghubungkan ke instans StarRocks dengan cara lain.

  2. Hubungkan ke instans StarRocks.

    1. Pada tab New Connection, konfigurasikan parameter berikut.

      image.png

      Parameter

      Contoh

      Deskripsi

      Region

      Tiongkok (Hangzhou)

      Pilih lokasi fisik instans StarRocks yang telah dibuat.

      Instance

      StarRocks_Serverless

      Pilih nama instans StarRocks yang telah dibuat.

      Connection Name

      Koneksi_Serverless

      Masukkan nama koneksi kustom.

      Nama harus terdiri dari 1 hingga 64 karakter dan dapat berisi karakter Tionghoa, huruf, angka, tanda hubung (-), dan garis bawah (_).

      Username

      Masukkan nilai berdasarkan kebutuhan aktual Anda.

      Nama pengguna awal default adalah admin. Anda dapat menggunakan nama pengguna ini untuk terhubung atau membuat pengguna lain sesuai kebutuhan. Untuk informasi selengkapnya tentang cara membuat pengguna, lihat Mengelola Pengguna dan Otorisasi Data.

      Password

      Masukkan nilai berdasarkan persyaratan Anda.

      Kata sandi yang sesuai dengan nama pengguna yang dibuat di instans StarRocks.

    2. Klik Test Connectivity.

    3. Setelah pengujian koneksi berhasil, klik OK.

      Pada halaman SQL Editor, Anda dapat menjalankan pernyataan SQL. Untuk informasi selengkapnya, lihat Menghubungkan ke instans StarRocks menggunakan EMR StarRocks Manager.

Langkah 3: Menjalankan kueri SQL

  1. Pada halaman Query List di SQL Editor, klik ikon image.png.

  2. Pada kotak dialog New File, klik OK.

  3. Pada file baru, masukkan perintah berikut. Pilih semua perintah dan klik Run.

    /**Membuat database**/
    CREATE DATABASE IF NOT EXISTS load_test;
    
    /**Menggunakan database**/
    USE load_test;
    
    /**Membuat tabel**/
    CREATE TABLE insert_wiki_edit
    (
        event_time DATETIME,
        channel VARCHAR(32) DEFAULT '',
        user VARCHAR(128) DEFAULT '',
        is_anonymous TINYINT DEFAULT '0',
        is_minor TINYINT DEFAULT '0',
        is_new TINYINT DEFAULT '0',
        is_robot TINYINT DEFAULT '0',
        is_unpatrolled TINYINT DEFAULT '0',
        delta INT SUM DEFAULT '0',
        added INT SUM DEFAULT '0',
        deleted INT SUM DEFAULT '0'
    )
    AGGREGATE KEY(event_time, channel, user, is_anonymous, is_minor, is_new, is_robot, is_unpatrolled)
    PARTITION BY RANGE(event_time)
    (
        PARTITION p06 VALUES LESS THAN ('2015-09-12 06:00:00'),
        PARTITION p12 VALUES LESS THAN ('2015-09-12 12:00:00'),
        PARTITION p18 VALUES LESS THAN ('2015-09-12 18:00:00'),
        PARTITION p24 VALUES LESS THAN ('2015-09-13 00:00:00')
    )
    DISTRIBUTED BY HASH(user) BUCKETS 10
    PROPERTIES("replication_num" = "1");
    
    /**Memasukkan data**/
    INSERT INTO insert_wiki_edit VALUES("2015-09-12 00:00:00","#en.wikipedia","GELongstreet",0,0,0,0,0,36,36,0),("2015-09-12 00:00:00","#ca.wikipedia","PereBot",0,1,0,1,0,17,17,0);
    
    /**Mengkueri data**/
    select * from insert_wiki_edit;

Informasi berikut dikembalikan.

image.png

Catatan

Anda dapat menjalankan perintah SHOW CREATE TABLE load_test.insert_wiki_edit; dan memeriksa hasilnya untuk properti datacache.enable guna memastikan bahwa instans dengan pemisahan penyimpanan-komputasi berfungsi dengan benar. Setelah database dan tabel untuk arsitektur pemisahan penyimpanan-komputasi dibuat, Anda juga dapat menemukan direktori database dan tabel baru di bucket OSS.

image

Langkah 4: Melihat informasi tabel

  1. Pada file baru, masukkan perintah berikut untuk melihat database.

    SHOW PROC '/dbs';

    Hasil berikut dikembalikan.

    image

  2. Masukkan perintah berikut untuk melihat detail tabel.

    SHOW PROC '/dbs/10120';

    Hasil berikut dikembalikan.

    image

    Dalam mode pemisahan penyimpanan-komputasi, CLOUD_NATIVE adalah pengenal untuk bidang tipe tabel. StoragePath adalah jalur tabel di OSS. Anda dapat menggunakan jalur ini untuk menemukan lokasi penyimpanan data tabel tersebut.

Langkah 5: Mendemonstrasikan fitur cache

  1. Pada panel navigasi sebelah kiri, pilih Diagnostics And Analysis > SQL Tasks.

  2. Temukan kueri target dan klik ID kueri tersebut.

  3. Klik tab Detail Eksekusi.

    Dengan melihat pohon eksekusi Profil, Anda dapat menemukan node terkait dan fokus pada dua metrik di sebelah kanan: CompressedBytesReadLocalDisk (data dibaca dari cache lokal) dan CompressedBytesReadRemote (data dibaca dari OSS jarak jauh).

    Pada contoh ini, fitur cache lokal diaktifkan untuk tabel `insert_wiki_edit_cache`. Dengan mengamati nilai metrik, Anda dapat menentukan bahwa kueri sepenuhnya mengenai cache lokal.

    image.png

    Fitur cache lokal tidak diaktifkan untuk tabel `insert_wiki_edit_nocache`. Dengan menganalisis nilai metrik yang sesuai, Anda dapat menentukan bahwa kueri pada tabel ini tidak mengenai cache lokal. Semua data dibaca dari OSS jarak jauh.

    image.png

Langkah 6: Melakukan pengujian performa

Contoh ini membandingkan performa kueri mode pemisahan penyimpanan-komputasi (dengan cache lokal) dengan mode integrasi penyimpanan-komputasi. Anda dapat menggunakan set data uji SSB untuk perbandingan performa yang lebih rinci. Untuk informasi selengkapnya, lihat Pengujian performa SSB.

  • Persiapkan lingkungan data.

    • Konfigurasi sumber daya kluster: 1 FE (8 CU) + 3 CN (Daya komputasi: 16 CU | Penyimpanan: 1.000 GB).

    • Parameter kluster: Gunakan pengaturan default. Aktifkan cache lokal untuk kluster pemisahan penyimpanan-komputasi.

    • Volume data: 500 GB (sf=500)

  • Hasil pengujian.

    • Waktu total integrasi penyimpanan-komputasi: 21,586 detik.

    • Waktu total pemisahan penyimpanan-komputasi (dengan cache lokal diaktifkan pada eksekusi kedua): 27,364 detik.

    • Waktu total pemisahan penyimpanan-komputasi tanpa cache lokal: 117,529 detik.

Setelah Anda menjalankan skrip sh ssb_query.sh ssb untuk melakukan pengujian SSB, hasilnya menunjukkan bahwa ketika cache lokal diaktifkan, performa kueri mode pemisahan penyimpanan-komputasi hampir sama dengan mode integrasi penyimpanan-komputasi. Keduanya jauh lebih baik daripada performa kluster tanpa cache lokal.

SQL     

Integrasi penyimpanan-komputasi

Pemisahan penyimpanan-komputasi dengan cache data diaktifkan

Pemisahan penyimpanan-komputasi dengan cache data dinonaktifkan

Q1.1    

0m0,373s

0m0,380s

0m2,080s

Q1.2    

0m0,303s

0m0,292d

0m2,141s

Q1.3    

0m0,101s

0m0,097s

0m0,144s

Q2.1    

0m2,461s

0m2,821s

0m14,401s

Q2.2    

0m2,272s

0m2.735s

0m13,048s

Q2.3    

0m2,168s

0m2,588s

0m13,957s

Q3.1    

0m4,536s

0m4,864s

0m14,810s

Q3.2    

0 menit 2,371 detik

0m2,682s

0m11,292s

Q3.3    

0m2,082s

0m2,648s

0m13,651s

Q3.4    

0m0.195s

0m0,212s

0m0,572s

Q4.1    

0m5,122d

0m5,847s

0m29,576s

Q4.2    

0m1,141s

0m1,369s

0m1,465s

Q4.3    

0m0,661s

0m0,829s

0m0,792s

Total   

21,586 s

27,364 s

117.529 s

(Opsional) Langkah 7: Melepas instans

Penting

Operasi ini menghapus instans dan semua sumber dayanya. Tindakan ini tidak dapat diurungkan. Lanjutkan dengan hati-hati.

Jika Anda tidak lagi memerlukan instans, Anda dapat melepaskannya untuk menghindari biaya tambahan.

  1. Pada halaman Instance List, klik Release di kolom Aksi instans yang ingin dilepaskan.

  2. Pada kotak dialog yang muncul, klik OK.

Referensi

  • Untuk informasi selengkapnya tentang operasi di Editor SQL, lihat Editor SQL.

  • Untuk melihat informasi kueri SQL instans saat ini, menganalisis rencana eksekusi SQL, serta mendiagnosis dan memecahkan masalah SQL secara cepat, lihat Diagnostik dan analisis.

  • Untuk melihat dan menganalisis semua operasi yang terjadi di database, lihat Log audit.

Hubungi kami

Jika Anda memiliki pertanyaan, cari ID grup DingTalk 24010016636 dan bergabunglah ke grup tersebut untuk mengajukan pertanyaan Anda.