全部产品
Search
文档中心

DataWorks:Buat node Flink SQL Batch

更新时间:Jul 02, 2025

Node Flink SQL Batch memungkinkan Anda mendefinisikan dan menjalankan tugas pemrosesan data menggunakan pernyataan SQL standar. Node ini cocok untuk analisis dan transformasi dataset besar, termasuk pembersihan dan agregasi data. Node ini dapat dikonfigurasi secara visual untuk memberikan solusi pemrosesan batch yang efisien dan fleksibel untuk data skala besar. Di dalam node Flink SQL Batch, Anda dapat menggunakan pernyataan mirip SQL untuk menyelesaikan pemrosesan data batch skala besar. Topik ini menjelaskan cara mengonfigurasi node Flink SQL Batch dan menggunakan pernyataan SQL di dalamnya untuk memproses data secara batch.

Prasyarat

Langkah 1: Kembangkan tugas berdasarkan node Flink SQL Batch

Di tab konfigurasi node Flink SQL Batch, Anda dapat melakukan operasi berikut untuk mengembangkan tugas:

Kembangkan kode SQL

Di editor SQL, kembangkan kode tugas. Anda dapat mendefinisikan variabel dalam format ${Nama Variabel} di dalam kode tugas, dan mengonfigurasi parameter penjadwalan di bagian Scheduling Parameters pada tab Properties untuk menetapkan parameter penjadwalan ke variabel sebagai nilai. Saat tugas Flink SQL Batch dijadwalkan untuk dijalankan, nilai dari parameter penjadwalan akan diganti secara dinamis di dalam kode tugas. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Contoh kode:

-- Buat tabel sumber bernama datagen_source.
CREATE TEMPORARY TABLE datagen_source_${var}(
  name VARCHAR
) WITH (
  'connector' = 'datagen',
  'number-of-rows' = '1000'
);

-- Buat tabel hasil bernama blackhole_sink.
CREATE TEMPORARY TABLE blackhole_sink_${var}(
  name  VARCHAR
) WITH (
  'connector' = 'blackhole'
);

-- Masukkan data dari tabel sumber datagen_source ke tabel hasil blackhole_sink.
INSERT INTO blackhole_sink_${var}
SELECT
  name
FROM datagen_source_${var};
Catatan

Dalam contoh ini, nilai dari parameter bizdate adalah $[yyyymmdd]. Anda dapat mengonfigurasi parameter ini untuk menyinkronkan data tambahan harian dalam batch.

Langkah 2: Konfigurasikan tugas Flink SQL Batch

Rujuk deskripsi parameter dalam tabel berikut untuk mengonfigurasi tugas batch Flink SQL berdasarkan kebutuhan bisnis Anda.

Konfigurasikan parameter di bagian Informasi Sumber Daya Flink

Konfigurasikan parameter berikut di bagian Flink Resource Information pada tab Properties. Untuk informasi lebih lanjut, lihat Konfigurasikan deployment.

Parameter

Deskripsi

Flink Cluster

Nama ruang kerja Realtime Compute for Apache Flink yang terkait dengan ruang kerja DataWorks di Management Center.

Flink Engine Version

Pilih versi mesin berdasarkan kebutuhan bisnis Anda.

Resource Group For Scheduling

Pilih grup sumber daya serverless yang terhubung ke ruang kerja Realtime Compute for Apache Flink.

Job Manager CPU

Praktik terbaik Realtime Compute for Apache Flink menunjukkan bahwa JobManager memerlukan setidaknya 0,5 core CPU dan 2 GiB memori untuk memastikan stabilitas deployment. Kami merekomendasikan agar Anda mengonfigurasi 1 core CPU dan 4 GiB memori untuk JobManager. Anda dapat mengonfigurasi maksimal 16 core CPU. Anda harus mengonfigurasi parameter ini berdasarkan ukuran ruang kerja Realtime Compute for Apache Flink dan kompleksitas deployment.

Job Manager Memory

Konfigurasi memori JobManager memengaruhi kemampuan penjadwalan dan manajemen tugas JobManager. Kami merekomendasikan agar Anda menentukan nilai antara 2 hingga 64 untuk parameter ini guna memastikan sistem berjalan stabil dan efisien. Unit: GiB. Anda harus mengonfigurasi parameter ini berdasarkan ukuran ruang kerja Realtime Compute for Apache Flink dan kebutuhan deployment.

Task Manager CPU

Konfigurasi sumber daya CPU TaskManager memengaruhi kemampuan TaskManager untuk memproses data dalam tugas. Praktik terbaik Realtime Compute for Apache Flink menunjukkan bahwa TaskManager memerlukan setidaknya 0,5 core CPU dan 2 GiB memori untuk memastikan stabilitas deployment. Kami merekomendasikan agar Anda mengonfigurasi 1 core CPU dan 4 GiB memori untuk setiap TaskManager. Anda dapat mengonfigurasi maksimal 16 core CPU. Anda harus mengonfigurasi parameter ini berdasarkan kebutuhan bisnis Anda.

Task Manager Memory

Konfigurasi memori TaskManager menentukan volume data dan performa TaskManager dalam memproses data dalam tugas. Untuk memastikan stabilitas dan efisiensi tugas, kami merekomendasikan agar Anda menentukan nilai antara 2 hingga 64 untuk parameter ini. Unit: GiB.

Parallelism

Jumlah tugas yang dapat dijalankan secara paralel dalam sebuah deployment. Paralelisme yang lebih tinggi dapat meningkatkan kecepatan pemrosesan dan pemanfaatan sumber daya. Anda harus mengonfigurasi parameter ini berdasarkan sumber daya ruang kerja dan karakteristik deployment.

Maximum Number Of Slots

Jumlah maksimum slot yang dapat dialokasikan ke tugas di TaskManagers. Setiap slot dapat menjalankan tugas atau operator. Anda dapat menyesuaikan jumlah maksimum slot berdasarkan kebutuhan bisnis Anda.

Slots For Each TaskManager

Jumlah slot di setiap TaskManager. Parameter ini menentukan jumlah tugas yang dapat dijalankan secara paralel. Anda dapat menyesuaikan konfigurasi slot untuk mengoptimalkan pemanfaatan sumber daya dan pemrosesan paralel deployment.

(Opsional) Konfigurasikan parameter penjadwalan

Di panel navigasi kanan tab konfigurasi node batch Flink SQL, klik Properties. Di bagian Scheduling Parameter pada tab Properti, klik Add Parameter dan konfigurasikan parameter Parameter Name dan Parameter Value untuk mengonfigurasi parameter penjadwalan untuk node batch Flink SQL demi penggunaan dinamis dalam kode.

(Opsional) Konfigurasikan parameter di bagian Parameter Waktu Proses Flink

Di panel navigasi kanan tab konfigurasi node batch Flink SQL, klik Properties. Di bagian Flink Runtime Parameters pada tab Properti, konfigurasikan parameter waktu proses. Untuk informasi lebih lanjut, lihat Konfigurasikan deployment.

Saat Anda mengonfigurasi parameter di bagian Flink Runtime Parameters, konfigurasi parameter harus kompatibel dengan konfigurasi parameter di Ververica Platform (VVP). Anda dapat mengonfigurasi parameter dalam format sintaks YAML tanpa perlu menambahkan karakter khusus, seperti titik koma (;), sebagai pemisah baris.

Catatan

Jika Anda ingin menjalankan tugas pada node Flink SQL Batch secara berkala, Anda harus mengonfigurasi parameter di bagian Scheduling Policies, Scheduling Time, Scheduling Dependencies, dan Node Output Parameters berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Penjadwalan node.

Setelah konfigurasi selesai, klik Save untuk menyimpan tugas.

Langkah 3: Deploy node Flink SQL Batch dan lakukan operasi & pemeliharaan

  1. Setelah tugas pada node Flink SQL Batch dikonfigurasi, commit dan deploy tugas tersebut. Untuk informasi lebih lanjut, lihat Deployment node atau alur kerja.

  2. Setelah tugas dideploy, Anda dapat mengklik Perform O&M di bawah Prod Online untuk melihat status berjalan tugas di Operation Center. Untuk informasi lebih lanjut, lihat Memulai dengan Operation Center.

Referensi