Node Serverless Spark SQL menyediakan mesin kueri SQL terdistribusi yang berjalan pada sumber daya komputasi EMR Serverless Spark. Anda dapat menggunakan node ini untuk memproses data terstruktur dan meningkatkan efisiensi eksekusi pekerjaan.
Prasyarat
Persyaratan sumber daya komputasi: Anda hanya dapat menggunakan sumber daya komputasi EMR Serverless Spark. Pastikan konektivitas jaringan antara kelompok sumber daya dan sumber daya komputasi.
Kelompok sumber daya: Hanya kelompok sumber daya Serverless yang dapat digunakan untuk menjalankan jenis tugas ini.
(Opsional) Jika Anda adalah pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke ruang kerja untuk pengembangan tugas dan telah diberi peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas. Berikan peran ini dengan hati-hati. Untuk informasi lebih lanjut tentang penambahan anggota, lihat Tambahkan anggota ke ruang kerja.
Jika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.
Buat node
Untuk informasi lebih lanjut, lihat Buat node.
Kembangkan node
Tulis kode SQL Anda di editor. Sintaksis catalog.database.tablename didukung. Menghilangkan catalog akan menggunakan catalog default kluster. Menghilangkan catalog.database akan menggunakan database default dari catalog default.
Untuk informasi lebih lanjut tentang katalog, lihat Kelola katalog data di EMR Serverless Spark.
-- Ganti <catalog.database.tablename> dengan nilai aktual Anda
SELECT * FROM <catalog.database.tablename> Definisikan variabel dalam kode Anda dengan format ${variable_name} dan tetapkan nilainya di bagian Scheduling Parameters pada panel Scheduling Configurations. Hal ini memungkinkan Anda meneruskan parameter secara dinamis ke tugas terjadwal. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Sumber dan ekspresi parameter penjadwalan. Kode berikut memberikan contoh.
SHOW TABLES;
-- Definisikan variabel bernama var dengan menggunakan ${var}. Jika Anda menetapkan nilai ${yyyymmdd} ke variabel ini, Anda dapat membuat tabel dengan akhiran tanggal bisnis saat tugas terjadwal dijalankan.
CREATE TABLE IF NOT EXISTS userinfo_new_${var} (
ip STRING COMMENT 'Alamat IP',
uid STRING COMMENT 'ID Pengguna'
) PARTITIONED BY (
dt STRING
); -- Ini dapat digunakan bersama parameter penjadwalan.Ukuran maksimum pernyataan SQL adalah 130 KB.
Debug node
Pada panel Run Configuration, pilih Compute resource dan Resource group.
Parameter
Deskripsi
Compute resource
Pilih EMR Serverless Spark compute resource yang terikat. Jika tidak tersedia, pilih Create Compute Resource dari daftar drop-down.
Resource group
Pilih kelompok sumber daya yang diikat ke ruang kerja.
Script parameter
Jika Anda mendefinisikan variabel menggunakan format
${parameter_name}dalam konten node, Anda harus menentukan Parameter Name dan Parameter Value di bagian Script Parameter. Variabel tersebut akan diganti secara dinamis dengan nilai aktualnya saat waktu proses. Untuk informasi lebih lanjut, lihat Sumber dan ekspresi parameter penjadwalan.Serverless Spark node parameters
Parameter waktu proses untuk aplikasi Spark. Jenis berikut didukung:
Parameter waktu proses kustom di DataWorks. Untuk informasi lebih lanjut, lihat Lampiran: Parameter DataWorks.
Properti Spark asli. Untuk informasi lebih lanjut, lihat Properti Spark open source. Anda dapat langsung memuat templat konfigurasi Spark dari EMR Serverless Spark tanpa input manual. Hal ini menyederhanakan konfigurasi dan memastikan konsistensi.
Di bilah alat di bagian atas editor node, klik Run untuk menjalankan tugas SQL.
PentingSebelum men-deploy node, Anda harus menyalin Run Configuration dari panel Runtime Configurations ke bagian Serverless Spark Node Parameters di panel Scheduling Configurations.
Langkah selanjutnya
Jadwalkan node: Jika node dalam folder proyek perlu dijalankan secara berkala, Anda dapat mengatur Scheduling Policies dan mengonfigurasi properti penjadwalan di bagian Scheduling di sisi kanan halaman node.
Publikasikan node: Jika tugas perlu dijalankan di lingkungan produksi, klik ikon
untuk memublikasikan tugas. Node dalam folder proyek hanya akan dijalankan sesuai jadwal setelah dipublikasikan ke lingkungan produksi.Node O&M: Setelah memublikasikan tugas, Anda dapat melihat status tugas yang dipicu otomatis di Operation Center. Untuk informasi lebih lanjut, lihat Memulai Operation Center.
Lampiran: Parameter DataWorks
Parameter | Deskripsi |
FLOW_SKIP_SQL_ANALYZE | Metode eksekusi pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya berlaku untuk pengujian di lingkungan Data Studio. |
DATAWORKS_SESSION_DISABLE | Metode pengiriman pekerjaan. Saat Anda menjalankan tugas di Data Studio, tugas tersebut dikirim ke SQL Compute secara default. Anda dapat menggunakan parameter ini untuk menentukan apakah tugas dieksekusi oleh SQL Compute atau dikirim ke antrian.
|
SERVERLESS_RELEASE_VERSION | Versi engine Spark. Secara default, tugas menggunakan Default Engine Version yang dikonfigurasi untuk kluster di Computing Resources di Management Center. Anda dapat mengatur parameter ini untuk menentukan versi engine berbeda untuk tugas tertentu. Catatan Parameter |
SERVERLESS_QUEUE_NAME | Menentukan antrian sumber daya untuk pengiriman pekerjaan. Saat pekerjaan dikirim ke antrian, secara default menggunakan Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management di Management Center. Anda dapat menambahkan antrian untuk menerapkan isolasi dan manajemen sumber daya. Untuk informasi lebih lanjut, lihat Kelola antrian sumber daya. Metode konfigurasi:
Catatan
|
SERVERLESS_SQL_COMPUTE | Menentukan SQL Compute (sesi SQL). Secara default, tugas menggunakan Default SQL Compute yang dikonfigurasi untuk kluster di Computing Resources di Management Center. Anda dapat mengatur parameter ini untuk menentukan sesi SQL berbeda untuk tugas tertentu. Untuk membuat dan mengelola sesi SQL, lihat Kelola sesi SQL. |
Lainnya | Parameter Konfigurasi Spark kustom. Anda dapat menambahkan properti khusus Spark. Format: Catatan DataWorks memungkinkan Anda mengatur parameter Spark global di tingkat ruang kerja untuk berbagai modul DataWorks. Anda dapat menentukan apakah parameter global ini menggantikan parameter dalam modul tertentu. Untuk informasi lebih lanjut tentang cara mengatur parameter Spark global, lihat Atur parameter Spark global. |