Node CDH Spark SQL - DataWorks

Spark SQL adalah mesin kueri SQL terdistribusi untuk memproses data terstruktur dan meningkatkan efisiensi eksekusi Pekerjaan. Node CDH Spark SQL di DataWorks memungkinkan Anda mengembangkan Tugas CDH Spark SQL, mengonfigurasi penjadwalan periodik, serta mengintegrasikannya dengan Pekerjaan lain.

Prasyarat

Anda telah membuat kluster Alibaba Cloud CDH dan mengaitkannya ke ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi CDH.
Penting
Pastikan komponen Spark telah diinstal pada kluster CDH Anda dan konfigurasi terkait Spark telah ditetapkan saat mengaitkan kluster tersebut.
(Opsional) Jika Anda menggunakan pengguna RAM, Anda harus menambahkan pengguna tersebut ke ruang kerja dan memberikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang cara menambahkan anggota ke ruang kerja, lihat Menambahkan anggota ke ruang kerja.
Catatan
Jika Anda menggunakan akun root, Anda dapat melewati langkah ini.
Anda telah mengonfigurasi Sumber data Hive di DataWorks dan lulus uji konektivitas. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.

Create a node

Untuk petunjuknya, lihat Create a node.

Develop node

Kembangkan kode Tugas di editor SQL. Anda dapat mendefinisikan variabel menggunakan format ${variable_name}, lalu menetapkan nilainya di sisi kanan editor node pada bagian Scheduling configuration > Scheduling parameter. Hal ini memungkinkan penggunaan parameter dinamis untuk Tugas terjadwal. Untuk informasi selengkapnya, lihat Sumber dan ekspresi parameter penjadwalan.

CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_f1 (`id` BIGINT, `name` STRING)
PARTITIONED BY (`ds` STRING);
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_t2 AS SELECT * FROM test_spark.test_lineage_table_f1;
INSERT INTO test_spark.test_lineage_table_t2 SELECT id,${var} FROM test_spark.test_lineage_table_f1;

Catatan

Contoh ini membuat tabel test_lineage_table_f1 dan test_lineage_table_t2 di database test_spark, serta menyalin data dari tabel test_lineage_table_f1 ke tabel test_lineage_table_t2. Ini hanyalah contoh. Sesuaikan dengan lingkungan database Anda.
Parameter ${var} menyediakan nilai untuk bidang name.

Debug node

Pada bagian Run Configuration Compute resources, konfigurasikan Compute resources dan Resource group.
1. Compute resources: Pilih nama kluster CDH yang telah didaftarkan di DataWorks.
2. Resource group: Pilih kelompok sumber daya penjadwalan yang telah lulus uji konektivitas Sumber data. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Pada Bilah alat, klik Run.

Langkah berikutnya

Node scheduling configuration: Untuk menjalankan node secara berkala, konfigurasikan Time Property dan properti penjadwalan terkait di panel Scheduling configuration di sisi kanan halaman.
Publish a node: Untuk menerbitkan node ke lingkungan produksi, klik ikon . Hanya node yang telah diterbitkan ke lingkungan produksi yang akan dijadwalkan.
Task O&M: Setelah menerbitkan node, Anda dapat memantau eksekusi terjadwalnya di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.