全部产品
Search
文档中心

DataWorks:Praktik terbaik untuk DataWorks pada EMR Serverless StarRocks

更新时间:Jan 21, 2026

DataWorks mendukung sumber data StarRocks. Anda dapat menghubungkan DataWorks ke EMR Serverless StarRocks dengan menambahkan sumber data untuk memanfaatkan fitur seperti integrasi data, pengembangan, analisis, dan layanan data. Topik ini menjelaskan cara menggunakan EMR Serverless StarRocks di DataWorks.

Informasi latar belakang

Ikhtisar EMR Serverless StarRocks

StarRocks adalah database Massively Parallel Processing (MPP) generasi berikutnya yang berkecepatan tinggi, menyediakan pengalaman analitik yang cepat dan terpadu.

EMR Serverless StarRocks adalah layanan yang sepenuhnya dikelola untuk StarRocks open source di Alibaba Cloud. Layanan ini memungkinkan Anda membuat dan mengelola instans serta data StarRocks secara fleksibel. Sebagai mesin pemrosesan analitik online (OLAP) yang kompatibel dengan protokol MySQL, StarRocks menawarkan kinerja unggul dan mendukung berbagai model OLAP, termasuk analisis OLAP multidimensi, analisis data lake, kueri konkurensi tinggi, serta analisis data real-time.

Penting
  • Untuk ruang kerja yang Use Data Studio (New Version), sumber data dengan nama yang sama akan dibuat secara otomatis saat Anda mengikat resource komputasi EMR Serverless StarRocks. Anda tidak perlu membuat sumber data seperti yang dijelaskan dalam topik ini.

  • Untuk ruang kerja yang tidak Use Data Studio (New Version), Anda harus membuat sumber data StarRocks seperti yang dijelaskan dalam topik ini untuk menggunakan StarRocks dalam pengembangan di DataWorks.

Ikhtisar DataWorks pada EMR Serverless StarRocks

DataWorks adalah platform terpadu untuk pengembangan dan tata kelola data besar. Saat terhubung ke EMR Serverless StarRocks melalui sumber data, DataWorks memungkinkan integrasi data dan penjadwalan pekerjaan berulang. Integrasi ini, dikombinasikan dengan kinerja tinggi mesin StarRocks dalam analisis dan layanan data, sepenuhnya mendukung pemanfaatan StarRocks dalam berbagai skenario bisnis.

Lihat konsep dasar dan pengenalan layanan utama DataWorks

Tabel berikut menjelaskan konsep dasar dan layanan utama DataWorks yang terlibat saat Anda menggunakan EMR Serverless StarRocks.

Konsep/layanan dasar

Deskripsi

Referensi

Resource group

Resource group DataWorks digunakan untuk menjalankan berbagai task.

Data source

Anda dapat membuat data source untuk digunakan di DataWorks. Saat menggunakan EMR Serverless StarRocks, Anda harus membuat data source StarRocks agar dapat terhubung ke EMR Serverless StarRocks untuk pengembangan dan eksekusi task.

Untuk informasi lebih lanjut tentang data source StarRocks, lihat Data source StarRocks.

Data Integration

DataWorks menyediakan layanan Data Integration untuk menyinkronkan data antara berbagai sumber data dalam berbagai skenario.

Untuk informasi lebih lanjut tentang Data Integration, lihat Data Integration.

Data Development and Operation Center

DataWorks menyediakan layanan Data Development dan Operation Center. Anda dapat mengembangkan dan men-debug task di Data Development, lalu mengirimkan dan menerbitkannya ke Operation Center untuk eksekusi otomatis berulang.

Data Analysis

Layanan Data Analysis di DataWorks membantu Anda menganalisis, mengedit, dan berbagi data secara online.

Untuk informasi lebih lanjut, lihat Data Analysis.

DataService Studio

DataService Studio di DataWorks adalah platform yang fleksibel, ringan, dan aman untuk membangun API data. Layanan ini menyediakan kemampuan layanan dan berbagi data yang komprehensif bagi individu, tim, dan perusahaan serta membantu pengguna mengelola layanan API internal dan eksternal secara terpadu.

Untuk informasi lebih lanjut, lihat DataService Studio.

Data Map

Data Map di DataWorks adalah modul untuk mengelola katalog data perusahaan berdasarkan metadata. Modul ini mencakup fitur seperti pencarian data global, penampilan detail metadata, pratinjau data, alur data, dan manajemen kategori data, sehingga membantu Anda menemukan, memahami, dan menggunakan data secara lebih efektif.

Untuk informasi lebih lanjut, lihat Ikhtisar Data Map.

Prasyarat

  • DataWorks telah diaktifkan dan ruang kerja telah dibuat. Untuk informasi lebih lanjut, lihat Pembelian.

  • Resource group telah dibeli, diikat ke ruang kerja, dan dikonfigurasi dengan pengaturan jaringan yang sesuai. Untuk informasi lebih lanjut, lihat Manajemen resource group.

  • Instans EMR Serverless StarRocks telah dibuat. Untuk informasi lebih lanjut, lihat Cara cepat menggunakan instans all-in-one.

    Catatan

    Setelah membuat instans StarRocks, Anda dapat melihat informasi instans di Konsol EMR. Anda juga dapat terhubung ke instans menggunakan EMR StarRocks Manager untuk melihat informasi tentang database dan tabel.

  • Alamat IP resource group DataWorks telah ditambahkan ke daftar putih instans EMR Serverless StarRocks.

    Gambar berikut menunjukkan titik masuk untuk menambahkan alamat IP ke daftar putih instans EMR Serverless StarRocks.

    image.png

Buat sumber data

Saat menggunakan EMR Serverless StarRocks di DataWorks, Anda harus terlebih dahulu membuat sumber data StarRocks untuk terhubung ke database EMR Serverless StarRocks Anda. Hal ini memungkinkan Anda memanfaatkan EMR Serverless StarRocks di berbagai layanan DataWorks.

Penting
  • Untuk ruang kerja yang diatur ke Use Data Studio (New Version), sumber data dengan nama yang sama akan dibuat secara otomatis saat Anda mengikat resource komputasi EMR Serverless StarRocks. Anda tidak perlu membuat sumber data seperti yang dijelaskan dalam topik ini.

  • Untuk ruang kerja yang tidak mengaktifkan Use Data Studio (New Version), buat sumber data StarRocks seperti yang dijelaskan dalam topik ini untuk menggunakan StarRocks dalam pengembangan di DataWorks.

Untuk informasi lebih lanjut tentang sumber data StarRocks, lihat Sumber data StarRocks. Titik masuk dan parameter konfigurasi utama untuk membuat sumber data dijelaskan dalam langkah-langkah berikut.

  1. Buka halaman Data Sources.

    1. Masuk ke Konsol DataWorks. Pada bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Management Center.

    2. Di panel navigasi kiri halaman SettingCenter, klik Data Sources.

  2. Klik Add Data Source. Konfigurasi utama dijelaskan pada bagian berikut. Anda dapat mempertahankan nilai default untuk parameter lainnya.

    Pilih metode pembuatan sumber data berdasarkan konektivitas jaringan antara instans StarRocks dan resource group DataWorks. Untuk informasi lebih lanjut tentang solusi konektivitas jaringan, lihat Ikhtisar solusi konektivitas jaringan.

    Koneksi melalui jaringan internal

    Parameter utama

    Deskripsi

    Configuration Mode

    Pilih Alibaba Cloud Instance Mode.

    Alibaba Cloud Account

    • Pilih Current Alibaba Cloud Account jika instans EMR Serverless StarRocks berada di bawah Akun Alibaba Cloud yang sama dengan DataWorks.

    • Jika instans EMR Serverless StarRocks berada di bawah akun Alibaba Cloud lain, pilih Another Alibaba Cloud Account. Setelah memilih Another Alibaba Cloud Account, Anda juga harus mengonfigurasi UID Of Another Alibaba Cloud Account dan RAM Role. Untuk informasi lebih lanjut tentang konfigurasi peran RAM, lihat Otorisasi lintas akun (RDS, Hive, atau Kafka).

    Region

    Pilih wilayah tempat instans EMR Serverless StarRocks berada.

    Instance

    Pilih instans StarRocks Serverless tertentu.

    Database Name

    Nama database yang akan dihubungkan. Anda dapat menggunakan EMR StarRocks Manager untuk terhubung ke instans dan melihat nama database di halaman Metadata Management.

    Username dan Password

    Username dan password untuk instans tersebut.

    Saat membuat instans StarRocks, pengguna admin dibuat secara default. Password-nya adalah yang Anda tentukan saat membuat instans.

    Connection Configuration

    Anda perlu menguji konektivitas antara sumber data dan resource group yang telah dibeli. Status koneksi Connected menunjukkan bahwa jaringan antara sumber data dan resource group telah terhubung.

    Koneksi melalui Internet

    Parameter utama

    Deskripsi

    Configuration Mode

    Pilih Connection String Mode.

    Host Address/IP Address

    Public endpoint node FE pada instans EMR Serverless StarRocks.

    image

    Port

    Port FE pada instans EMR Serverless StarRocks. Port kueri default adalah 9030.

    Load URL

    Alamat node FE StarRocks untuk StreamLoad. Anda dapat menentukan beberapa alamat FE dalam format FE public IP address:FE HTTP port. Pisahkan beberapa alamat dengan koma.

    Database Name

    Nama database yang akan dihubungkan. Setelah terhubung ke instans menggunakan EMR StarRocks Manager, Anda dapat melihat nama database di Metadata Management.

    Username/Password

    Username dan password untuk instans tersebut.

    Saat membuat instans StarRocks, pengguna admin dibuat secara default. Password-nya adalah yang Anda tentukan saat membuat instans.

    Connection Configuration

    Anda perlu menguji konektivitas jaringan antara sumber data dan resource group yang telah dibeli. Status Connected menunjukkan bahwa jaringan berhasil terhubung.

Data Integration

DataWorks dapat menyinkronkan data dari berbagai sumber ke tabel EMR Serverless StarRocks, termasuk MySQL, Hive, Kafka, OSS, dan HDFS. Contoh berikut menjelaskan langkah-langkah utama untuk menyinkronkan data dari database MySQL ke tabel EMR Serverless StarRocks.

Catatan

Untuk informasi lebih lanjut tentang konfigurasi task sinkronisasi untuk sumber data StarRocks, lihat Sumber data StarRocks.

  1. Buka halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Buat node sinkronisasi batch. Atur sumber data ke MySQL dan sumber data tujuan ke StarRocks.

    image.png

  3. Pilih resource group, lalu uji konektivitas ke sumber data dan sumber data tujuan.

  4. Atur jadwal berulang, lalu kirim dan terbitkan node untuk menjalankan task secara berkala.

    Setelah debugging selesai, Anda dapat mengklik Properties di sidebar, mengonfigurasi parameter penjadwalan seperti siklus penjadwalan dan kebijakan pengulangan, mengatur resource group untuk node tersebut, lalu mengklik tombol Submit dan Deploy.

Pengembangan dan penjadwalan data

Untuk task EMR Serverless StarRocks yang memerlukan penjadwalan berulang, Anda dapat membuat node StarRocks di DataStudio. Pilih sumber data StarRocks yang terhubung, tulis task SQL EMR Serverless StarRocks, dan atur jadwal berulang. Langkah-langkah utamanya sebagai berikut:

  1. Buka halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di DataStudio, buat node StarRocks. Pilih sumber data StarRocks yang terhubung dan tulis task SQL EMR Serverless StarRocks.

    image.png

  3. Untuk men-debug task SQL EMR Serverless StarRocks di DataStudio, pilih perintah SQL yang ingin Anda debug dan klik tombol Run. Pilih resource group untuk menjalankan task debugging.

  4. Atur jadwal berulang, lalu kirim dan terbitkan node untuk menjalankan task secara berkala.

    Setelah debugging selesai, Anda dapat mengklik Properties di sidebar, mengonfigurasi parameter penjadwalan seperti siklus penjadwalan dan kebijakan pengulangan, mengatur resource group untuk task tersebut, lalu mengklik tombol Submit dan Deploy.

Data Analysis

Anda dapat menggunakan layanan Data Analysis di DataWorks untuk menganalisis data di tabel EMR Serverless StarRocks secara cepat. Langkah-langkah utamanya sebagai berikut:

  1. Buka halaman SQL Query.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Analysis and Service > DataAnalysis. Pada halaman yang muncul, klik Go to DataAnalysis. Di panel navigasi kiri halaman yang muncul, klik SQL Query.

  2. Klik ikon image di sidebar kiri dan klik More > System Management. Di halaman System Management, atur resource group kueri untuk tipe engine StarRocks ke resource group yang digunakan oleh task.

    image.png

  3. Kembali ke halaman SQL Query. Di pojok kanan atas, alihkan tipe engine ke StarRocks dan pilih sumber data. Anda kemudian dapat mengedit dan menjalankan pernyataan kueri untuk menganalisis data di EMR Serverless StarRocks.

    image.png

DataService Studio

DataService Studio mendukung pembuatan API untuk sumber data StarRocks.

  1. Buka halaman DataService Studio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Analysis and Service > DataService Studio. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to DataService Studio.

  2. Buat API dan konfigurasikan parameternya.

    DataService Studio menyediakan antarmuka tanpa kode dan editor kode. Di editor kode, parameter permintaan dan respons untuk API dapat dibuat secara otomatis dari pernyataan kueri SQL. Contoh berikut menunjukkan langkah-langkah utama menggunakan antarmuka tanpa kode.

    image.png

    Atur tipe sumber data ke StarRocks. Pilih sumber data StarRocks yang telah Anda buat dan tabel target. Konfigurasikan parameter API, seperti parameter permintaan dan respons, sesuai petunjuk di halaman.

  3. Klik Resource Group di sidebar kanan dan konfigurasikan resource group sebagai grup sumber daya eksklusif untuk DataService Studio.

    image.png

  4. Setelah API lulus pengujian, kirim dan terbitkan API tersebut.

Data Map

Modul Data Map mendukung pengambilan metadata, pencarian, dan halaman detail tabel untuk data di StarRocks.

Pengambilan metadata

  1. Buka halaman Data Map.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.

  2. Di panel navigasi kiri, klik ikon image, lalu klik tombol Manage di pojok kanan atas modul StarRocks.

  3. Beralih ke tab Data Sources for Which No Crawler Is Created. Di kolom Actions, klik Metadata Acquisition.

  4. Konfigurasikan Resource Group Name. Setelah Test Network Connectivity berhasil, atur Collection Plan dan klik Confirmation untuk menyelesaikan konfigurasi pengambilan metadata.

    image

    Catatan
    • Untuk informasi lebih lanjut tentang pengambilan metadata, lihat Pengambilan metadata.

    • Hanya resource group serverless yang dapat menjalankan task ini.

Pencarian

  1. Buka halaman Data Map.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.

  2. Di panel navigasi kiri halaman Data Map, klik ikon image. Di halaman yang muncul, pilih StarRocks di tab Data Source, lalu cari tabel berdasarkan tipe di bagian atas halaman.

    Catatan

    Untuk informasi lebih lanjut tentang pencarian, lihat Kueri dan kelola data umum.

    image

Detail tabel

  1. Buka halaman Data Map.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.

  2. Di halaman utama Data Map atau dalam hasil pencarian, temukan tabel target dan klik namanya untuk membuka halaman detail tabel.

  3. Anda dapat melihat tab Details, Output, Lineage, dan Usage Notes.

    Catatan
    • Untuk informasi lebih lanjut tentang detail tabel, lihat Kueri dan kelola data umum.

    • Kluster serverless StarRocks versi V3.1.13, V3.2.9, dan versi selanjutnya mendukung analisis metadata dan alur data. Untuk informasi lebih lanjut tentang konfigurasi, lihat Lihat alur data.

    image