DataWorks mendukung sumber data StarRocks. Anda dapat menghubungkan DataWorks ke EMR Serverless StarRocks dengan menambahkan sumber data untuk memanfaatkan fitur seperti integrasi data, pengembangan, analisis, dan layanan data. Topik ini menjelaskan cara menggunakan EMR Serverless StarRocks di DataWorks.
Informasi latar belakang
Ikhtisar EMR Serverless StarRocks
StarRocks adalah database Massively Parallel Processing (MPP) generasi berikutnya yang berkecepatan tinggi, menyediakan pengalaman analitik yang cepat dan terpadu.
EMR Serverless StarRocks adalah layanan yang sepenuhnya dikelola untuk StarRocks open source di Alibaba Cloud. Layanan ini memungkinkan Anda membuat dan mengelola instans serta data StarRocks secara fleksibel. Sebagai mesin pemrosesan analitik online (OLAP) yang kompatibel dengan protokol MySQL, StarRocks menawarkan kinerja unggul dan mendukung berbagai model OLAP, termasuk analisis OLAP multidimensi, analisis data lake, kueri konkurensi tinggi, serta analisis data real-time.
Untuk ruang kerja yang Use Data Studio (New Version), sumber data dengan nama yang sama akan dibuat secara otomatis saat Anda mengikat resource komputasi EMR Serverless StarRocks. Anda tidak perlu membuat sumber data seperti yang dijelaskan dalam topik ini.
Untuk ruang kerja yang tidak Use Data Studio (New Version), Anda harus membuat sumber data StarRocks seperti yang dijelaskan dalam topik ini untuk menggunakan StarRocks dalam pengembangan di DataWorks.
Ikhtisar DataWorks pada EMR Serverless StarRocks
DataWorks adalah platform terpadu untuk pengembangan dan tata kelola data besar. Saat terhubung ke EMR Serverless StarRocks melalui sumber data, DataWorks memungkinkan integrasi data dan penjadwalan pekerjaan berulang. Integrasi ini, dikombinasikan dengan kinerja tinggi mesin StarRocks dalam analisis dan layanan data, sepenuhnya mendukung pemanfaatan StarRocks dalam berbagai skenario bisnis.
Prasyarat
DataWorks telah diaktifkan dan ruang kerja telah dibuat. Untuk informasi lebih lanjut, lihat Pembelian.
Resource group telah dibeli, diikat ke ruang kerja, dan dikonfigurasi dengan pengaturan jaringan yang sesuai. Untuk informasi lebih lanjut, lihat Manajemen resource group.
Instans EMR Serverless StarRocks telah dibuat. Untuk informasi lebih lanjut, lihat Cara cepat menggunakan instans all-in-one.
CatatanSetelah membuat instans StarRocks, Anda dapat melihat informasi instans di Konsol EMR. Anda juga dapat terhubung ke instans menggunakan EMR StarRocks Manager untuk melihat informasi tentang database dan tabel.
Alamat IP resource group DataWorks telah ditambahkan ke daftar putih instans EMR Serverless StarRocks.
Gambar berikut menunjukkan titik masuk untuk menambahkan alamat IP ke daftar putih instans EMR Serverless StarRocks.

Buat sumber data
Saat menggunakan EMR Serverless StarRocks di DataWorks, Anda harus terlebih dahulu membuat sumber data StarRocks untuk terhubung ke database EMR Serverless StarRocks Anda. Hal ini memungkinkan Anda memanfaatkan EMR Serverless StarRocks di berbagai layanan DataWorks.
Untuk ruang kerja yang diatur ke Use Data Studio (New Version), sumber data dengan nama yang sama akan dibuat secara otomatis saat Anda mengikat resource komputasi EMR Serverless StarRocks. Anda tidak perlu membuat sumber data seperti yang dijelaskan dalam topik ini.
Untuk ruang kerja yang tidak mengaktifkan Use Data Studio (New Version), buat sumber data StarRocks seperti yang dijelaskan dalam topik ini untuk menggunakan StarRocks dalam pengembangan di DataWorks.
Untuk informasi lebih lanjut tentang sumber data StarRocks, lihat Sumber data StarRocks. Titik masuk dan parameter konfigurasi utama untuk membuat sumber data dijelaskan dalam langkah-langkah berikut.
Buka halaman Data Sources.
Masuk ke Konsol DataWorks. Pada bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Management Center.
Di panel navigasi kiri halaman SettingCenter, klik Data Sources.
Klik Add Data Source. Konfigurasi utama dijelaskan pada bagian berikut. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Pilih metode pembuatan sumber data berdasarkan konektivitas jaringan antara instans StarRocks dan resource group DataWorks. Untuk informasi lebih lanjut tentang solusi konektivitas jaringan, lihat Ikhtisar solusi konektivitas jaringan.
Koneksi melalui jaringan internal
Parameter utama
Deskripsi
Configuration Mode
Pilih Alibaba Cloud Instance Mode.
Alibaba Cloud Account
Pilih Current Alibaba Cloud Account jika instans EMR Serverless StarRocks berada di bawah Akun Alibaba Cloud yang sama dengan DataWorks.
Jika instans EMR Serverless StarRocks berada di bawah akun Alibaba Cloud lain, pilih Another Alibaba Cloud Account. Setelah memilih Another Alibaba Cloud Account, Anda juga harus mengonfigurasi UID Of Another Alibaba Cloud Account dan RAM Role. Untuk informasi lebih lanjut tentang konfigurasi peran RAM, lihat Otorisasi lintas akun (RDS, Hive, atau Kafka).
Region
Pilih wilayah tempat instans EMR Serverless StarRocks berada.
Instance
Pilih instans StarRocks Serverless tertentu.
Database Name
Nama database yang akan dihubungkan. Anda dapat menggunakan EMR StarRocks Manager untuk terhubung ke instans dan melihat nama database di halaman Metadata Management.
Username dan Password
Username dan password untuk instans tersebut.
Saat membuat instans StarRocks, pengguna admin dibuat secara default. Password-nya adalah yang Anda tentukan saat membuat instans.
Connection Configuration
Anda perlu menguji konektivitas antara sumber data dan resource group yang telah dibeli. Status koneksi Connected menunjukkan bahwa jaringan antara sumber data dan resource group telah terhubung.
Koneksi melalui Internet
Parameter utama
Deskripsi
Configuration Mode
Pilih Connection String Mode.
Host Address/IP Address
Public endpoint node FE pada instans EMR Serverless StarRocks.

Port
Port FE pada instans EMR Serverless StarRocks. Port kueri default adalah 9030.
Load URL
Alamat node FE StarRocks untuk StreamLoad. Anda dapat menentukan beberapa alamat FE dalam format
FE public IP address:FE HTTP port. Pisahkan beberapa alamat dengan koma.Database Name
Nama database yang akan dihubungkan. Setelah terhubung ke instans menggunakan EMR StarRocks Manager, Anda dapat melihat nama database di Metadata Management.
Username/Password
Username dan password untuk instans tersebut.
Saat membuat instans StarRocks, pengguna admin dibuat secara default. Password-nya adalah yang Anda tentukan saat membuat instans.
Connection Configuration
Anda perlu menguji konektivitas jaringan antara sumber data dan resource group yang telah dibeli. Status Connected menunjukkan bahwa jaringan berhasil terhubung.
Data Integration
DataWorks dapat menyinkronkan data dari berbagai sumber ke tabel EMR Serverless StarRocks, termasuk MySQL, Hive, Kafka, OSS, dan HDFS. Contoh berikut menjelaskan langkah-langkah utama untuk menyinkronkan data dari database MySQL ke tabel EMR Serverless StarRocks.
Untuk informasi lebih lanjut tentang konfigurasi task sinkronisasi untuk sumber data StarRocks, lihat Sumber data StarRocks.
Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat node sinkronisasi batch. Atur sumber data ke MySQL dan sumber data tujuan ke StarRocks.

Pilih resource group, lalu uji konektivitas ke sumber data dan sumber data tujuan.
Atur jadwal berulang, lalu kirim dan terbitkan node untuk menjalankan task secara berkala.
Setelah debugging selesai, Anda dapat mengklik Properties di sidebar, mengonfigurasi parameter penjadwalan seperti siklus penjadwalan dan kebijakan pengulangan, mengatur resource group untuk node tersebut, lalu mengklik tombol Submit dan Deploy.
Pengembangan dan penjadwalan data
Untuk task EMR Serverless StarRocks yang memerlukan penjadwalan berulang, Anda dapat membuat node StarRocks di DataStudio. Pilih sumber data StarRocks yang terhubung, tulis task SQL EMR Serverless StarRocks, dan atur jadwal berulang. Langkah-langkah utamanya sebagai berikut:
Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di DataStudio, buat node StarRocks. Pilih sumber data StarRocks yang terhubung dan tulis task SQL EMR Serverless StarRocks.

Untuk men-debug task SQL EMR Serverless StarRocks di DataStudio, pilih perintah SQL yang ingin Anda debug dan klik tombol Run. Pilih resource group untuk menjalankan task debugging.
Atur jadwal berulang, lalu kirim dan terbitkan node untuk menjalankan task secara berkala.
Setelah debugging selesai, Anda dapat mengklik Properties di sidebar, mengonfigurasi parameter penjadwalan seperti siklus penjadwalan dan kebijakan pengulangan, mengatur resource group untuk task tersebut, lalu mengklik tombol Submit dan Deploy.
Data Analysis
Anda dapat menggunakan layanan Data Analysis di DataWorks untuk menganalisis data di tabel EMR Serverless StarRocks secara cepat. Langkah-langkah utamanya sebagai berikut:
Buka halaman SQL Query.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, klik Go to DataAnalysis. Di panel navigasi kiri halaman yang muncul, klik SQL Query.
Klik ikon
di sidebar kiri dan klik . Di halaman System Management, atur resource group kueri untuk tipe engine StarRocks ke resource group yang digunakan oleh task.
Kembali ke halaman SQL Query. Di pojok kanan atas, alihkan tipe engine ke StarRocks dan pilih sumber data. Anda kemudian dapat mengedit dan menjalankan pernyataan kueri untuk menganalisis data di EMR Serverless StarRocks.

DataService Studio
DataService Studio mendukung pembuatan API untuk sumber data StarRocks.
Buka halaman DataService Studio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to DataService Studio.
Buat API dan konfigurasikan parameternya.
DataService Studio menyediakan antarmuka tanpa kode dan editor kode. Di editor kode, parameter permintaan dan respons untuk API dapat dibuat secara otomatis dari pernyataan kueri SQL. Contoh berikut menunjukkan langkah-langkah utama menggunakan antarmuka tanpa kode.

Atur tipe sumber data ke StarRocks. Pilih sumber data StarRocks yang telah Anda buat dan tabel target. Konfigurasikan parameter API, seperti parameter permintaan dan respons, sesuai petunjuk di halaman.
Klik Resource Group di sidebar kanan dan konfigurasikan resource group sebagai grup sumber daya eksklusif untuk DataService Studio.

Setelah API lulus pengujian, kirim dan terbitkan API tersebut.
Data Map
Modul Data Map mendukung pengambilan metadata, pencarian, dan halaman detail tabel untuk data di StarRocks.
Pengambilan metadata
Buka halaman Data Map.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, klik Go to Data Map.
Di panel navigasi kiri, klik ikon
, lalu klik tombol Manage di pojok kanan atas modul StarRocks.Beralih ke tab Data Sources for Which No Crawler Is Created. Di kolom Actions, klik Metadata Acquisition.
Konfigurasikan Resource Group Name. Setelah Test Network Connectivity berhasil, atur Collection Plan dan klik Confirmation untuk menyelesaikan konfigurasi pengambilan metadata.
CatatanUntuk informasi lebih lanjut tentang pengambilan metadata, lihat Pengambilan metadata.
Hanya resource group serverless yang dapat menjalankan task ini.
Pencarian
Buka halaman Data Map.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, klik Go to Data Map.
Di panel navigasi kiri halaman Data Map, klik ikon
. Di halaman yang muncul, pilih StarRocks di tab Data Source, lalu cari tabel berdasarkan tipe di bagian atas halaman.CatatanUntuk informasi lebih lanjut tentang pencarian, lihat Kueri dan kelola data umum.

Detail tabel
Buka halaman Data Map.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, klik Go to Data Map.
Di halaman utama Data Map atau dalam hasil pencarian, temukan tabel target dan klik namanya untuk membuka halaman detail tabel.
Anda dapat melihat tab Details, Output, Lineage, dan Usage Notes.
CatatanUntuk informasi lebih lanjut tentang detail tabel, lihat Kueri dan kelola data umum.
Kluster serverless StarRocks versi V3.1.13, V3.2.9, dan versi selanjutnya mendukung analisis metadata dan alur data. Untuk informasi lebih lanjut tentang konfigurasi, lihat Lihat alur data.
