All Products
Search
Document Center

DataWorks:Node Serverless Spark SQL

Last Updated:Feb 26, 2026

Node Serverless Spark SQL menyediakan mesin kueri SQL terdistribusi yang berjalan pada sumber daya komputasi EMR Serverless Spark. Anda dapat menggunakan node ini untuk memproses data terstruktur dan meningkatkan efisiensi eksekusi pekerjaan.

Prasyarat

  • Persyaratan sumber daya komputasi: Anda hanya dapat menggunakan sumber daya komputasi EMR Serverless Spark. Pastikan konektivitas jaringan antara kelompok sumber daya dan sumber daya komputasi.

  • Kelompok sumber daya: Hanya kelompok sumber daya Serverless yang dapat digunakan untuk menjalankan jenis tugas ini.

  • (Opsional) Jika Anda adalah pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke ruang kerja untuk pengembangan tugas dan telah diberi peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas. Berikan peran ini dengan hati-hati. Untuk informasi lebih lanjut tentang penambahan anggota, lihat Tambahkan anggota ke ruang kerja.

    Jika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.

Buat node

Untuk informasi lebih lanjut, lihat Buat node.

Kembangkan node

Tulis kode SQL Anda di editor. Sintaksis catalog.database.tablename didukung. Menghilangkan catalog akan menggunakan catalog default kluster. Menghilangkan catalog.database akan menggunakan database default dari catalog default.

Untuk informasi lebih lanjut tentang katalog, lihat Kelola katalog data di EMR Serverless Spark.
-- Ganti <catalog.database.tablename> dengan nilai aktual Anda
SELECT * FROM <catalog.database.tablename> 

Definisikan variabel dalam kode Anda dengan format ${variable_name} dan tetapkan nilainya di bagian Scheduling Parameters pada panel Scheduling Configurations. Hal ini memungkinkan Anda meneruskan parameter secara dinamis ke tugas terjadwal. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Sumber dan ekspresi parameter penjadwalan. Kode berikut memberikan contoh.

SHOW TABLES; 
-- Definisikan variabel bernama var dengan menggunakan ${var}. Jika Anda menetapkan nilai ${yyyymmdd} ke variabel ini, Anda dapat membuat tabel dengan akhiran tanggal bisnis saat tugas terjadwal dijalankan.
CREATE TABLE IF NOT EXISTS userinfo_new_${var} (
  ip STRING COMMENT 'Alamat IP',
  uid STRING COMMENT 'ID Pengguna'
) PARTITIONED BY (
  dt STRING
); -- Ini dapat digunakan bersama parameter penjadwalan.
Catatan

Ukuran maksimum pernyataan SQL adalah 130 KB.

Debug node

  1. Pada panel Run Configuration, pilih Compute resource dan Resource group.

    Parameter

    Deskripsi

    Compute resource

    Pilih EMR Serverless Spark compute resource yang terikat. Jika tidak tersedia, pilih Create Compute Resource dari daftar drop-down.

    Resource group

    Pilih kelompok sumber daya yang diikat ke ruang kerja.

    Script parameter

    Jika Anda mendefinisikan variabel menggunakan format ${parameter_name} dalam konten node, Anda harus menentukan Parameter Name dan Parameter Value di bagian Script Parameter. Variabel tersebut akan diganti secara dinamis dengan nilai aktualnya saat waktu proses. Untuk informasi lebih lanjut, lihat Sumber dan ekspresi parameter penjadwalan.

    Serverless Spark node parameters

    Parameter waktu proses untuk aplikasi Spark. Jenis berikut didukung:

  2. Di bilah alat di bagian atas editor node, klik Run untuk menjalankan tugas SQL.

    Penting

    Sebelum men-deploy node, Anda harus menyalin Run Configuration dari panel Runtime Configurations ke bagian Serverless Spark Node Parameters di panel Scheduling Configurations.

Langkah selanjutnya

  • Jadwalkan node: Jika node dalam folder proyek perlu dijalankan secara berkala, Anda dapat mengatur Scheduling Policies dan mengonfigurasi properti penjadwalan di bagian Scheduling di sisi kanan halaman node.

  • Publikasikan node: Jika tugas perlu dijalankan di lingkungan produksi, klik ikon image untuk memublikasikan tugas. Node dalam folder proyek hanya akan dijalankan sesuai jadwal setelah dipublikasikan ke lingkungan produksi.

  • Node O&M: Setelah memublikasikan tugas, Anda dapat melihat status tugas yang dipicu otomatis di Operation Center. Untuk informasi lebih lanjut, lihat Memulai Operation Center.

Lampiran: Parameter DataWorks

Parameter

Deskripsi

FLOW_SKIP_SQL_ANALYZE

Metode eksekusi pernyataan SQL. Nilai yang valid:

  • true: Mengeksekusi beberapa pernyataan SQL sekaligus.

  • false (Default): Mengeksekusi satu pernyataan SQL dalam satu waktu.

Catatan

Parameter ini hanya berlaku untuk pengujian di lingkungan Data Studio.

DATAWORKS_SESSION_DISABLE

Metode pengiriman pekerjaan. Saat Anda menjalankan tugas di Data Studio, tugas tersebut dikirim ke SQL Compute secara default. Anda dapat menggunakan parameter ini untuk menentukan apakah tugas dieksekusi oleh SQL Compute atau dikirim ke antrian.

  • true: Tugas dikirim ke antrian untuk dieksekusi. Secara default, tugas dikirim ke antrian default yang ditentukan saat sumber daya komputasi diikat. Ketika DATAWORKS_SESSION_DISABLE diatur ke true, Anda dapat mengonfigurasi parameter SERVERLESS_QUEUE_NAME untuk menentukan antrian pengiriman tugas di Data Studio.

  • false (Default): Tugas dikirim ke SQL Compute untuk dieksekusi.

    Catatan

    Parameter ini hanya berlaku untuk pengujian di Data Studio. Tidak berlaku untuk eksekusi terjadwal.

SERVERLESS_RELEASE_VERSION

Versi engine Spark. Secara default, tugas menggunakan Default Engine Version yang dikonfigurasi untuk kluster di Computing Resources di Management Center. Anda dapat mengatur parameter ini untuk menentukan versi engine berbeda untuk tugas tertentu.

Catatan

Parameter SERVERLESS_RELEASE_VERSION di pengaturan lanjutan hanya berlaku jika SQL Compute (session) untuk kluster terdaftar tidak berada dalam status Running di konsol EMR Serverless Spark.

SERVERLESS_QUEUE_NAME

Menentukan antrian sumber daya untuk pengiriman pekerjaan. Saat pekerjaan dikirim ke antrian, secara default menggunakan Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management di Management Center. Anda dapat menambahkan antrian untuk menerapkan isolasi dan manajemen sumber daya. Untuk informasi lebih lanjut, lihat Kelola antrian sumber daya.

Metode konfigurasi:

Catatan
  • Parameter SERVERLESS_QUEUE_NAME di pengaturan lanjutan hanya berlaku jika SQL Compute (session) untuk kluster terdaftar tidak berada dalam status Running di konsol EMR Serverless Spark.

  • Untuk pengujian di Data Studio: Anda harus terlebih dahulu mengatur DATAWORKS_SESSION_DISABLE ke true untuk mengirim tugas ke antrian. Parameter SERVERLESS_QUEUE_NAME kemudian akan berlaku.

  • Untuk eksekusi terjadwal di Operation Center: Tugas selalu dikirim ke antrian dan tidak dapat dikirim ke SQL Compute.

SERVERLESS_SQL_COMPUTE

Menentukan SQL Compute (sesi SQL). Secara default, tugas menggunakan Default SQL Compute yang dikonfigurasi untuk kluster di Computing Resources di Management Center. Anda dapat mengatur parameter ini untuk menentukan sesi SQL berbeda untuk tugas tertentu. Untuk membuat dan mengelola sesi SQL, lihat Kelola sesi SQL.

Lainnya

Parameter Konfigurasi Spark kustom. Anda dapat menambahkan properti khusus Spark.

Format: spark.eventLog.enabled : false . DataWorks secara otomatis melengkapi perintah dalam format --conf key=value.

Catatan

DataWorks memungkinkan Anda mengatur parameter Spark global di tingkat ruang kerja untuk berbagai modul DataWorks. Anda dapat menentukan apakah parameter global ini menggantikan parameter dalam modul tertentu. Untuk informasi lebih lanjut tentang cara mengatur parameter Spark global, lihat Atur parameter Spark global.