Anda dapat membuat node Serverless Spark SQL untuk memproses data terstruktur. Node ini menggunakan mesin kueri SQL terdistribusi berbasis sumber daya komputasi EMR Serverless Spark guna mengeksekusi pekerjaan secara lebih efisien.
Lingkup
Batasan sumber daya komputasi: Anda hanya dapat menyambungkan sumber daya komputasi EMR Serverless Spark. Pastikan konektivitas jaringan tersedia antara kelompok sumber daya dan sumber daya komputasi.
Kelompok sumber daya: Hanya kelompok sumber daya Serverless yang dapat digunakan untuk menjalankan jenis node ini.
(Opsional) Jika Anda adalah pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke ruang kerja untuk pengembangan tugas dan telah diberikan peran Developer atau Workspace Administrator. Peran Administrator Ruang Kerja memiliki izin yang luas. Berikan peran ini dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Tambahkan anggota ke ruang kerja.
Jika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.
Buat node
Untuk informasi selengkapnya tentang cara membuat node, lihat Buat node.
Kembangkan node
Anda dapat mengembangkan kode tugas di area pengeditan SQL. Sintaks mendukung catalog.database.tablename. Jika catalog dihilangkan, tugas akan menggunakan catalog default kluster secara otomatis. Jika catalog.database dihilangkan, tugas akan menggunakan database default dalam catalog default kluster.
Untuk informasi selengkapnya tentang katalog data, lihat Kelola katalog data di EMR Serverless Spark.
-- Ganti <catalog.database.tablename> dengan informasi aktual Anda.
SELECT * FROM <catalog.database.tablename> Definisikan variabel dalam kode Anda menggunakan format ${nama variabel}. Anda kemudian dapat memberikan nilai pada variabel tersebut di sisi kanan halaman pengeditan node, pada bagian Scheduling Configuration di bawah Scheduling Parameters. Hal ini memungkinkan Anda meneruskan parameter secara dinamis ke kode Anda dalam skenario penjadwalan. Untuk informasi selengkapnya tentang format yang didukung untuk parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Contoh disediakan di bawah ini.
SHOW TABLES;
-- Definisikan variabel bernama var menggunakan ${var}. Jika Anda memberikan nilai ${yyyymmdd} ke variabel ini, Anda dapat membuat tabel dengan waktu data sebagai akhiran menggunakan tugas terjadwal.
CREATE TABLE IF NOT EXISTS userinfo_new_${var} (
ip STRING COMMENT'Alamat IP',
uid STRING COMMENT'ID Pengguna'
)PARTITIONED BY(
dt STRING
); --Ini dapat digunakan bersama parameter penjadwalan.Ukuran maksimum pernyataan SQL adalah 130 KB.
Uji coba node
Pada bagian Debug Configuration, pilih Computing Resource dan Resource Group.
Item Konfigurasi
Deskripsi
Sumber Daya Komputasi
Pilih sumber daya komputasi EMR Serverless Spark yang telah disambungkan. Jika tidak ada sumber daya komputasi yang tersedia, pilih Buat Sumber Daya Komputasi dari daftar drop-down.
Kelompok Sumber Daya
Pilih kelompok sumber daya yang telah disambungkan ke ruang kerja.
Parameter Skrip
Saat mengonfigurasi konten node, Anda dapat mendefinisikan variabel menggunakan format
${Nama Parameter}. Anda harus mengonfigurasi Parameter Name dan Parameter Value di bagian Script Parameters. Saat tugas dijalankan, variabel tersebut akan diganti secara dinamis dengan nilai aktualnya. Untuk informasi selengkapnya, lihat Format yang didukung untuk parameter penjadwalan.Parameter Node Serverless Spark
Parameter runtime untuk program Spark. Parameter berikut didukung:
Parameter runtime kustom DataWorks. Untuk informasi selengkapnya, lihat Lampiran: Parameter DataWorks.
Properti Spark asli. Untuk informasi selengkapnya, lihat Properti Spark open-source.
Di bilah alat di bagian atas halaman pengeditan node, klik Run untuk menjalankan tugas SQL.
PentingSebelum menerbitkan node, Anda harus menyinkronkan ServerlessSpark Node Parameters di bawah Debug Configuration dengan ServerlessSpark Node Parameters di bawah Scheduling Configuration.
Langkah selanjutnya
Jadwalkan node: Untuk menjalankan node secara berkala di folder proyek, konfigurasikan Scheduling Policy dan properti penjadwalan terkait di panel Scheduling di sebelah kanan.
Terbitkan node: Jika node perlu dijalankan di lingkungan produksi, klik ikon
untuk memulai proses penerbitan. Penjadwalan berkala untuk node di folder proyek hanya berlaku setelah diterbitkan ke lingkungan produksi.O&M Node: Setelah menerbitkan node, Anda dapat melihat status tugas yang dipicu otomatis di Pusat Operasi. Untuk informasi selengkapnya, lihat Memulai dengan Pusat Operasi.
Lampiran: Parameter DataWorks
Parameter lanjutan | Deskripsi |
FLOW_SKIP_SQL_ANALYZE | Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan. |
DATAWORKS_SESSION_DISABLE | Metode pengiriman pekerjaan. Saat Anda mengeksekusi tugas di Data Studio, tugas dikirim ke Komputasi SQL untuk dieksekusi secara default. Anda dapat menggunakan parameter ini untuk menentukan apakah tugas dikirim ke Komputasi SQL atau ke antrian.
|
SERVERLESS_RELEASE_VERSION | Versi mesin Spark. Secara default, Default Engine Version yang dikonfigurasi untuk kluster di bawah Computing Resource di Management Center digunakan. Anda dapat mengonfigurasi parameter ini untuk menentukan versi mesin yang berbeda untuk tugas yang berbeda. Catatan Parameter |
SERVERLESS_QUEUE_NAME | Antrian sumber daya tempat Anda ingin mengirimkan tugas. Secara default, tugas dikirim ke Default Resource Queue yang dikonfigurasi untuk kluster di Cluster Management di Management Center. Anda dapat menambahkan antrian untuk memenuhi persyaratan isolasi dan manajemen sumber daya. Untuk informasi selengkapnya, lihat Kelola antrian sumber daya. Metode konfigurasi:
Catatan
|
SERVERLESS_SQL_COMPUTE | Menentukan Komputasi SQL (sesi SQL). Secara default, Default SQL Compute yang dikonfigurasi untuk kluster di bawah Computing Resources di Management Center digunakan. Anda dapat mengonfigurasi parameter ini untuk menetapkan sesi SQL yang berbeda untuk tugas yang berbeda. Untuk informasi selengkapnya tentang cara membuat dan mengelola sesi SQL, lihat Kelola sesi SQL. |
Lainnya | Kustomisasi parameter Konfigurasi Spark dan tambahkan properti khusus Spark. Format konfigurasi adalah sebagai berikut: Catatan Anda dapat mengonfigurasi parameter Spark global di tingkat ruang kerja untuk layanan DataWorks. Anda dapat menentukan apakah parameter Spark global yang dikonfigurasi di tingkat ruang kerja memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi untuk menjalankan satu tugas tertentu di layanan DataWorks tertentu. Untuk informasi selengkapnya, lihat Konfigurasi parameter Spark global. |