Node ADB Spark SQL di DataWorks memungkinkan Anda mengembangkan, menjadwalkan secara berkala, dan mengintegrasikan tugas Spark SQL AnalyticDB for MySQL dengan pekerjaan lain. Topik ini menjelaskan cara mengembangkan tugas menggunakan node ADB Spark SQL.
Latar Belakang
AnalyticDB for MySQL Serverless Spark adalah layanan analitik dan komputasi big data terkelola yang dibangun di atas Apache Spark. Layanan ini mendukung pengiriman pernyataan Spark SQL langsung di konsol AnalyticDB for MySQL, sehingga menyederhanakan analisis data dengan Spark bagi pengembang data. Setelah Anda mengikat AnalyticDB for MySQL Serverless Spark sebagai resource komputasi di DataWorks, Anda dapat menggunakan node ADB Spark SQL untuk mengembangkan dan menjalankan tugas Spark SQL. Untuk informasi selengkapnya, lihat Ikhtisar.
Prasyarat
Prasyarat AnalyticDB for MySQL:
Anda telah membuat kluster AnalyticDB for MySQLEdisi Dasar di
regionyang sama denganworkspaceAnda. Untuk informasi selengkapnya, lihat Buat kluster.Anda telah membuat
interactive resource groupdi kluster AnalyticDB for MySQL dengan tipeengine-nya diatur ke Spark untuk menjalankan tugas Spark SQL di DataWorks. Untuk informasi selengkapnya, lihat Buat interactive resource group.Jika Anda berencana menggunakan
Object Storage Service (OSS)dalam node ADB Spark SQL, pastikan bucket OSS danklusterberada diregionyang sama.
Prasyarat DataWorks:
Anda memiliki
workspacedenganresource groupyang telah diikat.Kelompok sumber daya diikat ke Virtual Private Cloud (VPC) yang sama dengan kluster AnalyticDB for MySQL. Alamat IP kelompok sumber daya telah ditambahkan ke daftar putih kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Mengonfigurasi daftar putih.
Anda telah menambahkan instans kluster AnalyticDB for MySQL ke DataWorks sebagai
compute resourceAnalyticDB for Sparkdan telah menguji konektivitas melaluiresource group. Untuk informasi selengkapnya, lihat Kaitkan resource komputasi.Anda telah membuat
ADB Spark SQL node. Untuk informasi selengkapnya, lihat Buat node untuk alur kerja terjadwal.
Langkah 1: Kembangkan node ADB Spark SQL
Buat database eksternal.
Kembangkan kode SQL di editor node ADB Spark SQL. Contoh berikut membuat database eksternal. Untuk membuat tabel terkelola, lihat Gunakan Spark SQL untuk membuat tabel internal.
CREATE DATABASE IF NOT EXISTS `adb_spark_db` location 'oss://dw-1127/db_home';Kembangkan tugas.
Kembangkan kode tugas di editor SQL. Anda dapat mendefinisikan variabel dalam format ${variable_name} dan memberikan nilai pada bagian
scheduling parametersdi tabProperties. Hal ini memungkinkan pengiriman parameter dinamis untuk pekerjaan terjadwal. Untuk informasi selengkapnya tentangscheduling parameters, lihat Sumber dan ekspresi parameter penjadwalan. Berikut contohnya:CREATE TABLE IF NOT EXISTS adb_spark_db.tb_order_${var}(id int, name string, age int) USING parquet location 'oss://dw-1127/db_home/tb1' tblproperties ('parquet.compress'='SNAPPY'); CREATE TABLE IF NOT EXISTS adb_spark_db.tb_order_result_${var}(id int, name string, age int) USING parquet location 'oss://dw-1127/db_home/tb2' tblproperties ('parquet.compress'='SNAPPY'); INSERT INTO adb_spark_db.tb_order_result_${var} SELECT * FROM adb_spark_db.tb_order_${var};CatatanDalam contoh ini, Anda dapat mengatur variabel
${var}menjadi$[yyyymmdd]untuk pemrosesan data inkremental harian.
Langkah 2: Debug node ADB Spark SQL
Konfigurasikan properti debug untuk node ADB Spark SQL.
Di tab
Propertiespada panel kanan, konfigurasikan parameter sepertiCompute Engine,ADB Compute Resource Group,Resource Group, danCompute CUs. Untuk informasi selengkapnya, lihat tabel berikut.Jenis parameter
Parameter
Deskripsi
Compute resource
Compute engine
Pilih
compute resourceAnalyticDB for Sparkyang telah Anda ikat.ADB Compute Resource Group
Pilih
interactive resource groupyang telah Anda buat di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Buat dan kelola resource group.CatatanEngine
interactive resource groupharus berupa Spark.Resource group
Resource group
Pilih
resource groupyang lulus uji konektivitas saat Anda mengikatcompute resourceAnalyticDB for Spark.Compute CUs
Node menggunakan nilai CU default. Anda dapat membiarkan parameter ini tidak diubah.
Debug dan jalankan node ADB Spark SQL.
Untuk menjalankan tugas, klik Save lalu Run.
Langkah 3: Jadwalkan node ADB Spark SQL
Konfigurasikan properti penjadwalan untuk node ADB Spark SQL.
Untuk menjalankan tugas secara berkala, konfigurasikan parameter berikut di bagian Scheduling Policy pada tab Properties. Untuk informasi selengkapnya tentang parameter lainnya, lihat Konfigurasi penjadwalan node.
Parameter
Deskripsi
Compute engine
Pilih
compute resourceAnalyticDB for Sparkyang telah Anda ikat.ADB Compute Resource Group
Pilih
interactive resource groupyang telah Anda buat di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Buat dan kelola resource group.CatatanEngine
interactive resource groupharus berupa Spark.Resource group
Pilih
resource groupyang lulus uji konektivitas saat Anda mengikatcompute resourceAnalyticDB for Spark.Compute CUs
Node menggunakan nilai CU default. Anda dapat membiarkan parameter ini tidak diubah.
Terapkan node ADB Spark SQL.
Setelah mengonfigurasi node, terapkan node tersebut. Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.
Langkah selanjutnya
Setelah tugas diterapkan, Anda dapat melihat statusnya di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.