DataWorks menyediakan node ADB Spark untuk mengembangkan, menjadwalkan, dan mengintegrasikan tugas AnalyticDB Spark dengan jenis tugas lainnya. Topik ini menjelaskan cara menggunakan node ADB Spark untuk mengembangkan tugas.
Latar Belakang
ADB Spark adalah compute engine di AnalyticDB for MySQL untuk menjalankan tugas pemrosesan data Apache Spark skala besar. Fitur ini mendukung analisis data real-time, kueri kompleks, dan aplikasi pembelajaran mesin. ADB Spark menyederhanakan pengembangan dalam bahasa seperti Java, Scala, atau Python serta dapat secara otomatis melakukan scaling guna mengoptimalkan performa dan mengurangi biaya. Anda dapat mengunggah file JAR atau .py untuk mengonfigurasi tugas. Fitur ini ideal bagi industri yang memerlukan pemrosesan efisien terhadap dataset besar dan wawasan real-time, membantu perusahaan mengekstraksi informasi berharga dari data guna mendorong pertumbuhan bisnis.
Prasyarat
Prasyarat berikut untuk AnalyticDB for MySQL telah dipenuhi:
Kluster AnalyticDB for MySQL Edisi Dasar telah dibuat di wilayah yang sama dengan ruang kerja DataWorks Anda. Untuk informasi selengkapnya, lihat Buat kluster.
Job resource group telah dikonfigurasi di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Buat job resource group.
CatatanSaat menggunakan DataWorks untuk mengembangkan aplikasi Spark, Anda harus membuat job resource group.
Jika Anda menggunakan OSS sebagai penyimpanan di node ADB Spark, pastikan bucket OSS berada di wilayah yang sama dengan kluster AnalyticDB for MySQL.
Prasyarat berikut untuk DataWorks telah dipenuhi:
Ruang kerja telah dibuat, opsi Use Data Studio (New Version) telah dipilih, dan resource group telah disambungkan ke ruang kerja. Untuk informasi selengkapnya, lihat Buat ruang kerja.
Resource group telah disambungkan ke VPC yang sama dengan kluster AnalyticDB for MySQL. Daftar putih alamat IP telah dikonfigurasi untuk resource group di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Konfigurasikan daftar putih.
Instans kluster AnalyticDB for MySQL telah ditambahkan ke DataWorks sebagai compute engine tipe AnalyticDB for Spark. Konektivitas antara resource group dan compute engine telah diuji. Untuk informasi selengkapnya, lihat Sambungkan compute engine.
Folder workflow telah dibuat. Untuk informasi selengkapnya, lihat Buat folder workflow.
Node ADB Spark telah dibuat. Untuk informasi selengkapnya, lihat Buat node untuk workflow.
Langkah 1: Kembangkan node ADB Spark
Pada node ADB Spark, Anda dapat mengonfigurasi konten node berdasarkan bahasa yang dipilih. Anda dapat menggunakan paket JAR contoh spark-examples_2.12-3.2.0.jar atau file contoh spark_oss.py. Untuk informasi selengkapnya tentang pengembangan konten node, lihat Kembangkan aplikasi Spark menggunakan tool baris perintah spark-submit.
Konfigurasikan konten node ADB Spark (Java/Scala)
Persiapkan file yang akan dijalankan (JAR)
Unggah paket JAR contoh ke OSS agar Anda dapat menjalankan file paket JAR tersebut dalam konfigurasi node.
Persiapkan paket JAR contoh.
Unduh paket JAR contoh spark-examples_2.12-3.2.0.jar untuk digunakan pada node ADB Spark.
Unggah kode contoh ke OSS.
Masuk ke Konsol OSS. Di panel navigasi sebelah kiri, klik Buckets.
Pada halaman Buckets, klik Create Bucket. Di panel Create Bucket, buat bucket di wilayah yang sama dengan kluster AnalyticDB for MySQL.
CatatanTopik ini menggunakan bucket bernama
dw-1127sebagai contoh.Buat folder penyimpanan eksternal.
Setelah bucket dibuat, klik Go to Bucket. Pada halaman Objects, klik Create Directory untuk membuat folder penyimpanan eksternal bagi database Anda. Atur Directory Name menjadi
db_home.Unggah file kode contoh
spark-examples_2.12-3.2.0.jarke folderdb_home. Untuk informasi selengkapnya, lihat Unggah file menggunakan konsol.
Konfigurasikan node ADB Spark
Konfigurasikan konten node ADB Spark menggunakan parameter berikut.
Language | Parameter | Description |
Java/Scala | Main JAR Resource | Jalur penyimpanan sumber daya paket JAR di OSS. Contoh: |
Main Class | Kelas utama tugas dalam paket JAR yang telah dikompilasi. Nama kelas utama dalam kode contoh adalah | |
Parameters | Masukkan informasi parameter yang ingin Anda teruskan ke kode. Anda dapat mengonfigurasi parameter ini sebagai parameter dinamis dalam format Catatan Parameter dinamis | |
Configuration Items | Anda dapat mengonfigurasi parameter waktu proses untuk program Spark di sini. Untuk informasi selengkapnya, lihat Parameter konfigurasi aplikasi Spark. Contoh: |
Konfigurasikan konten node ADB Spark (Python)
Persiapkan file yang akan dijalankan (Python)
Unggah file data uji dan kode contoh ke OSS agar kode contoh dalam konfigurasi node dapat membaca file data uji tersebut.
Persiapkan data uji.
Buat file
data.txtdan tambahkan konten berikut ke dalam file tersebut.Hello,Dataworks Hello,OSSTulis kode contoh.
Buat file
spark_oss.pydan tambahkan konten berikut ke dalam filespark_oss.py.import sys from pyspark.sql import SparkSession # Inisialisasi Spark. spark = SparkSession.builder.appName('OSS Example').getOrCreate() # Baca file yang ditentukan. Jalur file ditentukan oleh nilai yang diteruskan melalui args. textFile = spark.sparkContext.textFile(sys.argv[1]) # Hitung dan cetak jumlah baris dalam file. print("File total lines: " + str(textFile.count())) # Cetak baris pertama file. print("First line is: " + textFile.first())Unggah data uji dan kode contoh ke OSS.
Masuk ke Konsol OSS. Di panel navigasi sebelah kiri, klik Buckets.
Pada halaman Buckets, klik Create Bucket. Di panel Create Bucket, buat bucket di wilayah yang sama dengan kluster AnalyticDB for MySQL.
CatatanTopik ini menggunakan bucket bernama
dw-1127sebagai contoh.Buat folder penyimpanan eksternal.
Setelah bucket dibuat, klik Go to Bucket. Pada halaman Objects, klik Create Directory untuk membuat folder penyimpanan eksternal bagi database. Atur Directory Name menjadi
db_home.Unggah file data uji
data.txtdan file kode contohspark_oss.pyke folderdb_home. Untuk informasi selengkapnya, lihat Unggah file menggunakan konsol.
Konfigurasikan node ADB Spark
Konfigurasikan konten node ADB Spark menggunakan parameter berikut.
Language | Parameter | Description |
Python | Main Package | Masukkan lokasi penyimpanan file kode contoh yang ingin dijalankan. Contoh: |
Parameters | Masukkan informasi parameter yang ingin Anda teruskan. Informasi contoh adalah lokasi penyimpanan file data uji yang akan dibaca. Contoh: | |
Configuration Items | Anda dapat mengonfigurasi parameter waktu proses untuk program Spark di sini. Untuk informasi selengkapnya, lihat Parameter konfigurasi aplikasi Spark. Contoh: |
Langkah 2: Debug node ADB Spark
Konfigurasikan properti debug untuk node ADB Spark.
Di bagian Run Configuration di sebelah kanan node, konfigurasikan Computing Resource, AnalyticDB Computing Resource Group, Resource Group, dan CUs for Computing sebagai berikut.
Parameter type
Parameter
Description
Computing Resource
Computing Resource
Pilih compute engine AnalyticDB for Spark yang telah Anda sambungkan.
AnalyticDB Computing Resource Group
Pilih job resource group yang telah Anda buat di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Ikhtisar resource group.
Resource Group
Resource Group
Pilih resource group yang lulus uji konektivitas saat Anda menyambungkan compute engine AnalyticDB for Spark.
CUs for Computing
Node saat ini menggunakan nilai CU default. Anda tidak perlu mengubah nilai CU tersebut.
Debug dan jalankan node ADB Spark.
Untuk menjalankan tugas node, klik Save lalu Run.
Langkah 3: Jadwalkan node ADB Spark
Konfigurasikan properti penjadwalan untuk node ADB Spark.
Untuk menjalankan tugas node secara berkala, konfigurasikan parameter berikut di bagian Scheduling Policies pada tab Scheduling, yang terletak di sisi kanan node. Untuk informasi selengkapnya tentang konfigurasi parameter, lihat Konfigurasikan penjadwalan untuk node.
Parameter
Description
Compute Resource
Pilih compute engine AnalyticDB for Spark yang telah Anda sambungkan.
AnalyticDB Computing Resource Group
Pilih job resource group yang telah Anda buat di kluster AnalyticDB for MySQL. Untuk informasi selengkapnya, lihat Ikhtisar resource group.
Resource Group
Pilih resource group yang lulus uji konektivitas saat Anda menyambungkan compute engine AnalyticDB for Spark.
CUs for Computing
Node saat ini menggunakan nilai CU default. Anda tidak perlu mengubah nilai CU tersebut.
Publikasikan node ADB Spark.
Setelah mengonfigurasi tugas node, Anda harus mempublikasikan node tersebut. Untuk informasi selengkapnya, lihat Publikasikan node atau workflow.
Langkah selanjutnya
Setelah tugas dipublikasikan, Anda dapat melihat status berjalan tugas yang dipicu secara otomatis di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.