Menggunakan ADB Spark - DataWorks

DataWorks menyediakan node ADB Spark untuk mengembangkan, menjadwalkan, dan mengintegrasikan tugas AnalyticDB Spark dengan jenis tugas lainnya. Topik ini menjelaskan cara menggunakan node ADB Spark untuk mengembangkan tugas.

Latar Belakang

ADB Spark adalah compute engine di AnalyticDB for MySQL untuk menjalankan tugas pemrosesan data Apache Spark skala besar. Fitur ini mendukung analisis data real-time, kueri kompleks, dan aplikasi pembelajaran mesin. ADB Spark menyederhanakan pengembangan dalam bahasa seperti Java, Scala, atau Python serta dapat secara otomatis melakukan scaling guna mengoptimalkan performa dan mengurangi biaya. Anda dapat mengunggah file JAR atau .py untuk mengonfigurasi tugas. Fitur ini ideal bagi industri yang memerlukan pemrosesan efisien terhadap dataset besar dan wawasan real-time, membantu perusahaan mengekstraksi informasi berharga dari data guna mendorong pertumbuhan bisnis.

Prasyarat

Prasyarat berikut untuk AnalyticDB for MySQL telah dipenuhi:

Kluster AnalyticDB for MySQL Edisi Dasar telah dibuat di wilayah yang sama dengan ruang kerja DataWorks Anda. Untuk informasi selengkapnya, lihat Buat kluster.
Job resource group telah dikonfigurasi di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Buat job resource group.
Catatan
Saat menggunakan DataWorks untuk mengembangkan aplikasi Spark, Anda harus membuat job resource group.
Jika Anda menggunakan OSS sebagai penyimpanan di node ADB Spark, pastikan bucket OSS berada di wilayah yang sama dengan kluster AnalyticDB for MySQL.

Prasyarat berikut untuk DataWorks telah dipenuhi:

Ruang kerja telah dibuat, opsi Use Data Studio (New Version) telah dipilih, dan resource group telah disambungkan ke ruang kerja. Untuk informasi selengkapnya, lihat Buat ruang kerja.
Resource group telah disambungkan ke VPC yang sama dengan kluster AnalyticDB for MySQL. Daftar putih alamat IP telah dikonfigurasi untuk resource group di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Konfigurasikan daftar putih.
Instans kluster AnalyticDB for MySQL telah ditambahkan ke DataWorks sebagai compute engine tipe AnalyticDB for Spark. Konektivitas antara resource group dan compute engine telah diuji. Untuk informasi selengkapnya, lihat Sambungkan compute engine.
Folder workflow telah dibuat. Untuk informasi selengkapnya, lihat Buat folder workflow.
Node ADB Spark telah dibuat. Untuk informasi selengkapnya, lihat Buat node untuk workflow.

Langkah 1: Kembangkan node ADB Spark

Pada node ADB Spark, Anda dapat mengonfigurasi konten node berdasarkan bahasa yang dipilih. Anda dapat menggunakan paket JAR contoh spark-examples_2.12-3.2.0.jar atau file contoh spark_oss.py. Untuk informasi selengkapnya tentang pengembangan konten node, lihat Kembangkan aplikasi Spark menggunakan tool baris perintah spark-submit.

Konfigurasikan konten node ADB Spark (Java/Scala)

Persiapkan file yang akan dijalankan (JAR)

Unggah paket JAR contoh ke OSS agar Anda dapat menjalankan file paket JAR tersebut dalam konfigurasi node.

Persiapkan paket JAR contoh.
Unduh paket JAR contoh spark-examples_2.12-3.2.0.jar untuk digunakan pada node ADB Spark.
Unggah kode contoh ke OSS.
1. Masuk ke Konsol OSS. Di panel navigasi sebelah kiri, klik Buckets.
2. Pada halaman Buckets, klik Create Bucket. Di panel Create Bucket, buat bucket di wilayah yang sama dengan kluster AnalyticDB for MySQL.
  Catatan
  Topik ini menggunakan bucket bernama dw-1127 sebagai contoh.
3. Buat folder penyimpanan eksternal.
  Setelah bucket dibuat, klik Go to Bucket. Pada halaman Objects, klik Create Directory untuk membuat folder penyimpanan eksternal bagi database Anda. Atur Directory Name menjadi db_home.
4. Unggah file kode contoh spark-examples_2.12-3.2.0.jar ke folder db_home. Untuk informasi selengkapnya, lihat Unggah file menggunakan konsol.

Konfigurasikan node ADB Spark

Konfigurasikan konten node ADB Spark menggunakan parameter berikut.

Language	Parameter	Description
Java/Scala	Main JAR Resource	Jalur penyimpanan sumber daya paket JAR di OSS. Contoh: `oss://dw-1127/db_home/spark-examples_2.12-3.2.0.jar`.
	Main Class	Kelas utama tugas dalam paket JAR yang telah dikompilasi. Nama kelas utama dalam kode contoh adalah `org.apache.spark.examples.SparkPi`.
	Parameters	Masukkan informasi parameter yang ingin Anda teruskan ke kode. Anda dapat mengonfigurasi parameter ini sebagai parameter dinamis dalam format `${var}`. Catatan Parameter dinamis `${var}` pada contoh dapat diatur menjadi `1000`.
	Configuration Items	Anda dapat mengonfigurasi parameter waktu proses untuk program Spark di sini. Untuk informasi selengkapnya, lihat Parameter konfigurasi aplikasi Spark. Contoh: `spark.driver.resourceSpec:medium`

Konfigurasikan konten node ADB Spark (Python)

Persiapkan file yang akan dijalankan (Python)

Unggah file data uji dan kode contoh ke OSS agar kode contoh dalam konfigurasi node dapat membaca file data uji tersebut.

Persiapkan data uji.
Buat file data.txt dan tambahkan konten berikut ke dalam file tersebut.
```
Hello,Dataworks
Hello,OSS
```

Tulis kode contoh.

Buat file spark_oss.py dan tambahkan konten berikut ke dalam file spark_oss.py.

import sys

from pyspark.sql import SparkSession

# Inisialisasi Spark.
spark = SparkSession.builder.appName('OSS Example').getOrCreate()
# Baca file yang ditentukan. Jalur file ditentukan oleh nilai yang diteruskan melalui args.
textFile = spark.sparkContext.textFile(sys.argv[1])
# Hitung dan cetak jumlah baris dalam file.
print("File total lines: " + str(textFile.count()))
# Cetak baris pertama file.
print("First line is: " + textFile.first())

Unggah data uji dan kode contoh ke OSS.
1. Masuk ke Konsol OSS. Di panel navigasi sebelah kiri, klik Buckets.
2. Pada halaman Buckets, klik Create Bucket. Di panel Create Bucket, buat bucket di wilayah yang sama dengan kluster AnalyticDB for MySQL.
  Catatan
  Topik ini menggunakan bucket bernama dw-1127 sebagai contoh.
3. Buat folder penyimpanan eksternal.
  Setelah bucket dibuat, klik Go to Bucket. Pada halaman Objects, klik Create Directory untuk membuat folder penyimpanan eksternal bagi database. Atur Directory Name menjadi db_home.
4. Unggah file data uji data.txt dan file kode contoh spark_oss.py ke folder db_home. Untuk informasi selengkapnya, lihat Unggah file menggunakan konsol.

Konfigurasikan node ADB Spark

Konfigurasikan konten node ADB Spark menggunakan parameter berikut.

Language	Parameter	Description
Python	Main Package	Masukkan lokasi penyimpanan file kode contoh yang ingin dijalankan. Contoh: `oss://dw-1127/db_home/spark_oss.py`.
	Parameters	Masukkan informasi parameter yang ingin Anda teruskan. Informasi contoh adalah lokasi penyimpanan file data uji yang akan dibaca. Contoh: `oss://dw-1127/db_home/data.txt`.
	Configuration Items	Anda dapat mengonfigurasi parameter waktu proses untuk program Spark di sini. Untuk informasi selengkapnya, lihat Parameter konfigurasi aplikasi Spark. Contoh: `spark.driver.resourceSpec:medium`

Langkah 2: Debug node ADB Spark

Konfigurasikan properti debug untuk node ADB Spark.

Di bagian Run Configuration di sebelah kanan node, konfigurasikan Computing Resource, AnalyticDB Computing Resource Group, Resource Group, dan CUs for Computing sebagai berikut.

Parameter type	Parameter	Description
Computing Resource	Computing Resource	Pilih compute engine AnalyticDB for Spark yang telah Anda sambungkan.
Computing Resource	AnalyticDB Computing Resource Group	Pilih job resource group yang telah Anda buat di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Ikhtisar resource group.
Resource Group	Resource Group	Pilih resource group yang lulus uji konektivitas saat Anda menyambungkan compute engine AnalyticDB for Spark.
Resource Group	CUs for Computing	Node saat ini menggunakan nilai CU default. Anda tidak perlu mengubah nilai CU tersebut.

Debug dan jalankan node ADB Spark.
Untuk menjalankan tugas node, klik Save lalu Run.

Langkah 3: Jadwalkan node ADB Spark

Konfigurasikan properti penjadwalan untuk node ADB Spark.

Untuk menjalankan tugas node secara berkala, konfigurasikan parameter berikut di bagian Scheduling Policies pada tab Scheduling, yang terletak di sisi kanan node. Untuk informasi selengkapnya tentang konfigurasi parameter, lihat Konfigurasikan penjadwalan untuk node.

Parameter	Description
Compute Resource	Pilih compute engine AnalyticDB for Spark yang telah Anda sambungkan.
AnalyticDB Computing Resource Group	Pilih job resource group yang telah Anda buat di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Ikhtisar resource group.
Resource Group	Pilih resource group yang lulus uji konektivitas saat Anda menyambungkan compute engine AnalyticDB for Spark.
CUs for Computing	Node saat ini menggunakan nilai CU default. Anda tidak perlu mengubah nilai CU tersebut.

Publikasikan node ADB Spark.
Setelah mengonfigurasi tugas node, Anda harus mempublikasikan node tersebut. Untuk informasi selengkapnya, lihat Publikasikan node atau workflow.

Langkah selanjutnya

Setelah tugas dipublikasikan, Anda dapat melihat status berjalan tugas yang dipicu secara otomatis di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.