Kembangkan node Serverless Spark SQL - DataWorks

Anda dapat membuat node Serverless Spark SQL untuk memproses data terstruktur. Node ini menggunakan mesin kueri SQL terdistribusi berbasis sumber daya komputasi EMR Serverless Spark guna mengeksekusi pekerjaan secara lebih efisien.

Lingkup

Batasan sumber daya komputasi: Anda hanya dapat menyambungkan sumber daya komputasi EMR Serverless Spark. Pastikan konektivitas jaringan tersedia antara kelompok sumber daya dan sumber daya komputasi.
Kelompok sumber daya: Hanya kelompok sumber daya Serverless yang dapat digunakan untuk menjalankan jenis node ini.
(Opsional) Jika Anda adalah pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke ruang kerja untuk pengembangan tugas dan telah diberikan peran Developer atau Workspace Administrator. Peran Administrator Ruang Kerja memiliki izin yang luas. Berikan peran ini dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Tambahkan anggota ke ruang kerja.
Jika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.

Buat node

Untuk informasi selengkapnya tentang cara membuat node, lihat Buat node.

Kembangkan node

Anda dapat mengembangkan kode tugas di area pengeditan SQL. Sintaks mendukung catalog.database.tablename. Jika catalog dihilangkan, tugas akan menggunakan catalog default kluster secara otomatis. Jika catalog.database dihilangkan, tugas akan menggunakan database default dalam catalog default kluster.

Untuk informasi selengkapnya tentang katalog data, lihat Kelola katalog data di EMR Serverless Spark.

-- Ganti <catalog.database.tablename> dengan informasi aktual Anda. 
SELECT * FROM <catalog.database.tablename>

Definisikan variabel dalam kode Anda menggunakan format ${nama variabel}. Anda kemudian dapat memberikan nilai pada variabel tersebut di sisi kanan halaman pengeditan node, pada bagian Scheduling Configuration di bawah Scheduling Parameters. Hal ini memungkinkan Anda meneruskan parameter secara dinamis ke kode Anda dalam skenario penjadwalan. Untuk informasi selengkapnya tentang format yang didukung untuk parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Contoh disediakan di bawah ini.

SHOW TABLES; 
-- Definisikan variabel bernama var menggunakan ${var}. Jika Anda memberikan nilai ${yyyymmdd} ke variabel ini, Anda dapat membuat tabel dengan waktu data sebagai akhiran menggunakan tugas terjadwal.
CREATE TABLE IF NOT EXISTS userinfo_new_${var} (
  ip STRING COMMENT'Alamat IP',
  uid STRING COMMENT'ID Pengguna'
)PARTITIONED BY(
  dt STRING
); --Ini dapat digunakan bersama parameter penjadwalan.

Catatan

Ukuran maksimum pernyataan SQL adalah 130 KB.

Uji coba node

Pada bagian Debug Configuration, pilih Computing Resource dan Resource Group.

Item Konfigurasi	Deskripsi
Sumber Daya Komputasi	Pilih sumber daya komputasi EMR Serverless Spark yang telah disambungkan. Jika tidak ada sumber daya komputasi yang tersedia, pilih Buat Sumber Daya Komputasi dari daftar drop-down.
Kelompok Sumber Daya	Pilih kelompok sumber daya yang telah disambungkan ke ruang kerja.
Parameter Skrip	Saat mengonfigurasi konten node, Anda dapat mendefinisikan variabel menggunakan format `${Nama Parameter}`. Anda harus mengonfigurasi Parameter Name dan Parameter Value di bagian Script Parameters. Saat tugas dijalankan, variabel tersebut akan diganti secara dinamis dengan nilai aktualnya. Untuk informasi selengkapnya, lihat Format yang didukung untuk parameter penjadwalan.
Parameter Node Serverless Spark	Parameter runtime untuk program Spark. Parameter berikut didukung: Parameter runtime kustom DataWorks. Untuk informasi selengkapnya, lihat Lampiran: Parameter DataWorks. Properti Spark asli. Untuk informasi selengkapnya, lihat Properti Spark open-source.

Di bilah alat di bagian atas halaman pengeditan node, klik Run untuk menjalankan tugas SQL.
Penting
Sebelum menerbitkan node, Anda harus menyinkronkan ServerlessSpark Node Parameters di bawah Debug Configuration dengan ServerlessSpark Node Parameters di bawah Scheduling Configuration.

Langkah selanjutnya

Jadwalkan node: Untuk menjalankan node secara berkala di folder proyek, konfigurasikan Scheduling Policy dan properti penjadwalan terkait di panel Scheduling di sebelah kanan.
Terbitkan node: Jika node perlu dijalankan di lingkungan produksi, klik ikon untuk memulai proses penerbitan. Penjadwalan berkala untuk node di folder proyek hanya berlaku setelah diterbitkan ke lingkungan produksi.
O&M Node: Setelah menerbitkan node, Anda dapat melihat status tugas yang dipicu otomatis di Pusat Operasi. Untuk informasi selengkapnya, lihat Memulai dengan Pusat Operasi.

Lampiran: Parameter DataWorks

Parameter lanjutan	Deskripsi
FLOW_SKIP_SQL_ANALYZE	Mode eksekusi untuk pernyataan SQL. Nilai yang valid: `true`: Eksekusi beberapa pernyataan SQL sekaligus. `false` (default): Eksekusi satu pernyataan SQL dalam satu waktu. Catatan Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan.
DATAWORKS_SESSION_DISABLE	Metode pengiriman pekerjaan. Saat Anda mengeksekusi tugas di Data Studio, tugas dikirim ke Komputasi SQL untuk dieksekusi secara default. Anda dapat menggunakan parameter ini untuk menentukan apakah tugas dikirim ke Komputasi SQL atau ke antrian. `true`: Tugas dikirim ke antrian untuk dieksekusi. Antrian default yang ditentukan saat Anda mengaitkan sumber daya komputasi digunakan secara default. Ketika parameter DATAWORKS_SESSION_DISABLE diatur ke true, Anda dapat mengonfigurasi parameter `SERVERLESS_QUEUE_NAME` untuk menentukan antrian tempat tugas dikirim untuk dieksekusi di Data Studio. `false` (default): Tugas dikirim ke Komputasi SQL untuk dieksekusi. Catatan Parameter ini hanya berlaku selama eksekusi di Data Studio. Parameter ini tidak berlaku selama eksekusi terjadwal.
SERVERLESS_RELEASE_VERSION	Versi mesin Spark. Secara default, Default Engine Version yang dikonfigurasi untuk kluster di bawah Computing Resource di Management Center digunakan. Anda dapat mengonfigurasi parameter ini untuk menentukan versi mesin yang berbeda untuk tugas yang berbeda. Catatan Parameter `SERVERLESS_RELEASE_VERSION` dalam konfigurasi Pengaturan Lanjutan hanya berlaku ketika Komputasi SQL (sesi) yang ditentukan untuk kluster terdaftar berada dalam status belum dimulai di konsol EMR Serverless Spark.
SERVERLESS_QUEUE_NAME	Antrian sumber daya tempat Anda ingin mengirimkan tugas. Secara default, tugas dikirim ke Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management di Management Center. Anda dapat menambahkan antrian untuk memenuhi persyaratan isolasi dan manajemen sumber daya. Untuk informasi selengkapnya, lihat Kelola antrian sumber daya. Metode konfigurasi: Tetapkan parameter node untuk menentukan antrian sumber daya. Anda dapat menentukan antrian sumber daya tempat Anda ingin mengirimkan tugas dengan menyetel parameter Spark global. Catatan Parameter `SERVERLESS_QUEUE_NAME` dalam Pengaturan Lanjutan hanya berlaku ketika Komputasi SQL (sesi) yang ditentukan oleh kluster terdaftar belum dimulai di konsol EMR Serverless Spark. Saat Anda menjalankan tugas di Data Studio: Anda harus terlebih dahulu menyetel `DATAWORKS_SESSION_DISABLE` ke `true`. Hal ini memastikan bahwa tugas dikirim ke antrian untuk dieksekusi. Parameter `SERVERLESS_QUEUE_NAME` kemudian berlaku, yang dapat Anda gunakan untuk menentukan antrian tugas. Eksekusi terjadwal di Pusat Operasi: Tugas dipaksa dikirim ke antrian untuk dieksekusi dan tidak dapat dikirim ke Komputasi SQL.
SERVERLESS_SQL_COMPUTE	Menentukan Komputasi SQL (sesi SQL). Secara default, Default SQL Compute yang dikonfigurasi untuk kluster di bawah Computing Resources di Management Center digunakan. Anda dapat mengonfigurasi parameter ini untuk menetapkan sesi SQL yang berbeda untuk tugas yang berbeda. Untuk informasi selengkapnya tentang cara membuat dan mengelola sesi SQL, lihat Kelola sesi SQL.
Lainnya	Kustomisasi parameter Konfigurasi Spark dan tambahkan properti khusus Spark. Format konfigurasi adalah sebagai berikut: `spark.eventLog.enabled : false` . DataWorks secara otomatis menambahkan parameter ini ke kode yang dikirimkan ke kluster EMR dalam format `--conf key=value`. Catatan Anda dapat mengonfigurasi parameter Spark global di tingkat ruang kerja untuk layanan DataWorks. Anda dapat menentukan apakah parameter Spark global yang dikonfigurasi di tingkat ruang kerja memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi untuk menjalankan satu tugas tertentu di layanan DataWorks tertentu. Untuk informasi selengkapnya, lihat Konfigurasi parameter Spark global.