Topik ini menjelaskan cara menggunakan node Lindorm Spark SQL di DataWorks untuk mengembangkan dan menjadwalkan Pekerjaan Lindorm Spark SQL secara berkala.
Latar Belakang
Lindorm adalah layanan komputasi terdistribusi yang dibangun di atas arsitektur cloud-native. Layanan ini mendukung model komputasi edisi komunitas, kompatibel dengan antarmuka Spark, serta terintegrasi secara mendalam dengan mesin penyimpanan Lindorm. Lindorm memanfaatkan fitur dan kemampuan pengindeksan dari penyimpanan data dasarnya untuk menyelesaikan pekerjaan terdistribusi secara efisien, sehingga ideal untuk kasus penggunaan seperti pemrosesan data skala besar, analitik interaktif, Machine Learning, dan komputasi graf.
Prasyarat
Opsional: Jika Anda adalah pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke workspace terkait dan diberi peran Developer atau Workspace Administrator. Untuk detail tentang cara menambahkan anggota, lihat Tambahkan anggota ke workspace.
CatatanJika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.
Instance Lindorm telah dibuat dan dikaitkan dengan workspace DataWorks. Untuk detailnya, lihat Kaitkan resource komputasi Lindorm.
Buat node Lindorm Spark SQL
Untuk membuat node, lihat Buat node Lindorm Spark SQL.
Kembangkan node Lindorm Spark SQL
Di editor SQL, definisikan variabel menggunakan sintaks ${variable_name}. Anda kemudian dapat memberikan nilai untuk variabel tersebut di panel Run Configuration atau 调度配置 di sisi kanan halaman editor node.
CREATE TABLE IF NOT EXISTS lindorm_table_job (
id INT,
name STRING,
data STRING
)
USING parquet
PARTITIONED BY (partition_date DATE);
INSERT OVERWRITE TABLE lindorm_table_job PARTITION (partition_date='${var}')
VALUES (1, 'Alice', 'Sample data 1'), (2, 'Bob', 'Sample data 2');Pada contoh ini, variabel ${var} dapat diatur menjadi 2025-04-25. Pengaturan ini menyisipkan data ke partisi tertentu dari tabel `lindorm_table_job`. Hal ini memungkinkan pengiriman parameter dinamis untuk eksekusi terjadwal. Untuk informasi lebih lanjut tentang parameter penjadwalan, lihat Sumber dan ekspresi parameter penjadwalan.
Untuk operasi Lindorm Spark SQL lainnya, lihat Referensi SQL.
Debug node Lindorm Spark SQL
Konfigurasikan properti waktu proses.
Di panel Run Configuration di sebelah kanan, konfigurasikan Compute Resource, Lindorm Resource Group, dan Resource Group. Tabel berikut menjelaskan parameter-parameter tersebut.
Parameter
Deskripsi
Compute Resource
Pilih resource komputasi Lindorm yang telah Anda kaitkan.
Lindorm Resource Group
Pilih Lindorm Resource Group yang Anda tentukan saat mengaitkan resource komputasi Lindorm.
Resource Group
Pilih Resource Group yang telah lulus uji konektivitas saat Anda mengaitkan resource komputasi Lindorm Spark.
Script Parameter
Jika Anda mendefinisikan variabel dalam kode node menggunakan sintaks
${Parameter Name}, Anda harus memberikan nilai untuk setiap variabel. Untuk detailnya, lihat Sumber dan ekspresi parameter penjadwalan.Spark Parameter
Parameter waktu proses untuk program Spark. Untuk informasi lebih lanjut tentang konfigurasi Spark, lihat Konfigurasikan parameter untuk pekerjaan.
Debug node.
Untuk menjalankan Pekerjaan node, klik Save lalu Run.
Langkah selanjutnya
Konfigurasi penjadwalan node: Jika node harus dijalankan secara berkala, konfigurasikan Scheduling Policy dan pengaturan terkait lainnya di panel Properties di sebelah kanan.
Publikasikan node: Untuk menerapkan Pekerjaan, klik ikon
untuk memulai alur kerja penerbitan. Node hanya akan dijadwalkan untuk dijalankan secara berkala setelah dipublikasikan.Data Map (untuk data tabel Lindorm): Buka Data Map untuk mengumpulkan metadata dari Lindorm.