Sistem Pemrosesan Terdistribusi Lindorm (LDPS) yang disediakan oleh Lindorm memungkinkan Anda menggunakan fitur orkestrasi tugas dari Data Management (DMS) untuk menjadwalkan pekerjaan Lindorm Spark serta melihat riwayat publikasi dan log dari pekerjaan tersebut. LDPS dapat memenuhi kebutuhan komputasi dalam skenario seperti produksi data, analitik interaktif, pembelajaran mesin, dan komputasi graf. Topik ini menjelaskan cara menggunakan DMS untuk mengelola pekerjaan Lindorm Spark.
Prasyarat
DMS telah diaktifkan.
LDPS diaktifkan untuk instance Lindorm. Untuk informasi lebih lanjut, lihat Aktifkan LDPS dan Modifikasi Konfigurasi.
Pekerjaan telah dikembangkan. Untuk informasi lebih lanjut, lihat Buat Pekerjaan dalam Java atau Buat Pekerjaan dalam Python.
Pekerjaan yang telah dikembangkan diunggah ke HDFS atau Object Storage Service (OSS). Untuk informasi lebih lanjut, lihat Unggah File di Konsol Lindorm.
Buat aliran tugas Lindorm Spark
Masuk ke Konsol DMS V5.0.
Buka halaman Task Orchestration.
Mode Sederhana:
Di bagian Scene Guide, klik Data Transmission and Processing (DTS).
Klik Task Orchestration di bagian Data processing di sisi kanan halaman.
Mode Normal: Di bilah navigasi atas, pilih .
Di halaman Task Orchestration, klik Create Task Flow.
Di kotak dialog Create Task Flow, tentukan Task Flow Name dan Description, lalu klik OK.
Di bagian Task Type di sisi kiri, seret node Lindorm Spark ke kanvas, dan hubungkan satu node ke node lain untuk menentukan dependensi antar node.
Konfigurasikan node Lindorm Spark.
Klik dua kali node Lindorm Spark, atau klik node Lindorm Spark lalu klik ikon
.Di halaman yang muncul, konfigurasikan parameter dasar dan parameter kustom dari pekerjaan yang ingin Anda jalankan.
Di bagian Basic configuration, konfigurasikan parameter dasar. Tabel berikut menjelaskan parameter dasar.
Parameter
Deskripsi
Region
Pilih wilayah tempat instance Lindorm Anda ditempatkan.
Instance Lindorm
Pilih ID instance Lindorm Anda.
Tipe Tugas
Pilih jenis pekerjaan Spark. Jenis pekerjaan berikut didukung:
JAR
Python
SQL
Di bagian Job configuration, konfigurasikan parameter kustom dari pekerjaan yang ingin Anda jalankan. Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari berbagai jenis pekerjaan Spark.
Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari pekerjaan Spark JAR:
{ "mainResource" : "oss://path/to/your/file.jar", "mainClass" : "path.to.main.class", "args" : [ "arg1", "arg2" ], "configs" : { "spark.hadoop.fs.oss.endpoint" : "", "spark.hadoop.fs.oss.accessKeyId" : "", "spark.hadoop.fs.oss.accessKeySecret" : "", "spark.hadoop.fs.oss.impl" : "org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", "spark.sql.shuffle.partitions" : "20" } }Parameter
Tipe
Diperlukan
Deskripsi
Contoh
mainResource
String
Ya
Path tempat paket JAR disimpan di HDFS atau OSS.
HDFS path tempat paket JAR disimpan: hdfs:///path/spark-examples_2.12-3.1.1.jar
OSS path tempat paket JAR disimpan: oss://testBucketName/path/spark-examples_2.12-3.1.1.jar
mainClass
String
Ya
Kelas yang digunakan sebagai titik masuk program Anda dalam pekerjaan JAR.
com.aliyun.ldspark.SparkPi
args
Array
Tidak
Parameter yang dilewatkan ke parameter mainClass.
["arg1", "arg2"]
configs
Json
Tidak
Parameter sistem dari pekerjaan Spark. Jika pekerjaan diunggah ke OSS, Anda harus mengonfigurasi parameter berikut di configs:
spark.hadoop.fs.oss.endpoint: Path tempat pekerjaan Spark disimpan di OSS.
spark.hadoop.fs.oss.accessKeyId: ID AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan ID AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey.
spark.hadoop.fs.oss.accessKeySecret: Rahasia AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan rahasia AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey.
spark.hadoop.fs.oss.impl: Kelas yang digunakan untuk mengakses OSS. Setel nilainya menjadi org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem.
{ "spark.sql.shuffle.partitions": "200"}
Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari pekerjaan Spark Python:
{ "mainResource" : "oss://path/to/your/file.py", "args" : [ "arg1", "arg2" ], "configs" : { "spark.hadoop.fs.oss.endpoint" : "", "spark.hadoop.fs.oss.accessKeyId" : "", "spark.hadoop.fs.oss.accessKeySecret" : "", "spark.hadoop.fs.oss.impl" : "org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", "spark.submit.pyFiles" : "oss://path/to/your/project_file.py,oss://path/to/your/project_module.zip", "spark.archives" : "oss://path/to/your/environment.tar.gz#environment", "spark.sql.shuffle.partitions" : "20" } }Parameter
Tipe
Diperlukan
Deskripsi
Contoh
mainResource
String
Ya
Path tempat file Python disimpan di OSS atau HDFS.
OSS path tempat file Python disimpan: oss://testBucketName/path/spark-examples.py
HDFS path tempat file Python disimpan: hdfs:///path/spark-examples.py
args
Array
Tidak
Parameter yang dilewatkan ke parameter mainClass.
["arg1", "arg2"]
configs
Json
Tidak
Parameter sistem dari pekerjaan Spark. Jika Anda perlu mengunggah pekerjaan ke OSS, Anda harus mengonfigurasi parameter berikut di configs:
spark.hadoop.fs.oss.endpoint: Path tempat pekerjaan Spark disimpan di OSS.
spark.hadoop.fs.oss.accessKeyId: ID AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan ID AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey.
spark.hadoop.fs.oss.accessKeySecret: Rahasia AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan rahasia AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey.
spark.hadoop.fs.oss.impl: Kelas yang digunakan untuk mengakses OSS. Setel nilainya menjadi org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem.
{"spark.sql.shuffle.partitions": "200"}
Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari pekerjaan SQL:
{ "mainResource" : "oss://path/to/your/file.sql", "configs" : { "spark.hadoop.fs.oss.endpoint" : "", "spark.hadoop.fs.oss.accessKeyId" : "", "spark.hadoop.fs.oss.accessKeySecret" : "", "spark.hadoop.fs.oss.impl" : "org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", "spark.sql.shuffle.partitions" : "20" } }Parameter
Tipe
Diperlukan
Deskripsi
Contoh
mainResource
String
Ya
Path tempat file SQL disimpan di OSS atau HDFS.
OSS path tempat file SQL disimpan: oss://testBucketName/path/spark-examples.sql
HDFS path tempat file SQL disimpan: hdfs:///path/spark-examples.sql
configs
Json
Tidak
Konfigurasi lainnya dari pekerjaan SQL.
{ "spark.executor.memory" : "8g"}
Setelah konfigurasi selesai, klik Try Run di sudut kiri atas untuk memeriksa apakah pekerjaan berjalan sesuai harapan.
Publikasikan aliran tugas. Setelah semua node dikonfigurasi, klik Publish di sudut kiri atas halaman aliran tugas saat ini.

Lihat riwayat publikasi dan log dari aliran tugas
Di halaman Task Orchestration, klik nama aliran tugas yang riwayat publikasi dan log-nya ingin Anda lihat.
Di halaman yang muncul, klik Go to O&M di sudut kanan atas.

Lihat riwayat publikasi dan log dari aliran tugas.
Lihat riwayat publikasi dari aliran tugas. Di halaman Task Flow Information, klik tab Published Tasks untuk melihat riwayat publikasi dari aliran tugas.

Lihat log dari aliran tugas.
Di tab Running History, pilih Scheduling Trigger atau Triggered Manually dari daftar drop-down di sudut kiri atas untuk melihat detail semua node dalam aliran tugas.

Klik View di baris node yang ingin Anda lihat. Lalu, lihat log untuk pengiriman pekerjaan Lindorm Spark, dan dapatkan ID pekerjaan dan SparkUI dari node.
CatatanJika pekerjaan gagal dikirimkan, berikan ID pekerjaan dan SparkUI ketika Anda mengirim tiket.
Pengaturan Lanjutan
Anda dapat mengonfigurasi aliran tugas Lindorm Spark di konsol DMS. Setelah aliran tugas Lindorm Spark dikonfigurasi, Anda harus mempublikasikan ulang aliran tugas tersebut.
Konfigurasikan pengaturan penjadwalan
Anda dapat mengonfigurasi kebijakan penjadwalan berdasarkan kebutuhan bisnis Anda. Aliran tugas Lindorm Spark akan dieksekusi secara otomatis berdasarkan kebijakan penjadwalan. Langkah-langkah berikut menjelaskan cara mengonfigurasi kebijakan penjadwalan:
Di halaman Task Orchestration, klik nama aliran tugas yang ingin Anda konfigurasi kebijakan penjadwalannya.
Di sudut kiri bawah halaman yang muncul, klik Task Flow Information.

Di bagian Scheduling Settings di sebelah kanan, aktifkan Enable Scheduling dan konfigurasikan kebijakan penjadwalan. Tabel berikut menjelaskan parameter yang dapat Anda konfigurasi.
Contoh: Jika Anda ingin aliran tugas dijadwalkan pada pukul 00:00 dan 12:00 setiap hari, konfigurasikan kebijakan penjadwalan dengan menyetel parameter berikut:
Setel Scheduling Type ke Penjadwalan Siklus.
Pilih Jam dari daftar drop-down Scheduling Cycle.
Di bidang Timed Scheduling, pilih Waktu Tertentu. Pilih 0Jam dan 12Jam dari daftar drop-down Specified Time.
Konfigurasikan variabel
Untuk aliran tugas yang penjadwalan siklusnya diaktifkan, Anda dapat mengonfigurasi variabel waktu untuk pekerjaan yang ingin Anda jalankan. Sebagai contoh, Anda dapat mengonfigurasi variabel waktu bizdate untuk node tersebut. Variabel waktu menentukan hari sebelum waktu titik ketika tugas dijalankan. Langkah-langkah berikut menjelaskan cara mengonfigurasi variabel waktu:
Di halaman aliran tugas saat ini, klik dua kali node Lindorm Spark, atau klik node Lindorm Spark dan klik ikon
.Di panel navigasi di sebelah kanan, klik Variable Setting.
Di tab Node Variable atau Task Flow Variable, tambahkan variabel.
Di bagian Job configuration, gunakan variabel tersebut. Untuk informasi tentang variabel lainnya, lihat Variabel.
Kelola notifikasi
Jika Anda mengaktifkan fitur notifikasi untuk aliran tugas Anda, sistem akan mengirim pesan notifikasi berdasarkan hasil eksekusi aliran tugas. Langkah-langkah berikut menjelaskan cara mengaktifkan fitur notifikasi:
Di sudut kiri bawah halaman aliran tugas saat ini, klik Notification Configurations.
Aktifkan salah satu sakelar notifikasi berikut berdasarkan kebutuhan bisnis Anda:
Notifikasi Dasar
Notifikasi Sukses: Sistem mengirim pesan notifikasi jika aliran tugas berhasil dieksekusi.
Notifikasi Kegagalan: Sistem mengirim pesan notifikasi jika aliran tugas gagal dieksekusi.
Notifikasi Batas Waktu: Sistem mengirim pesan notifikasi jika aliran tugas melebihi batas waktu.
Notifikasi Peringatan: Sistem mengirim pesan notifikasi ketika tugas akan segera dimulai.
(Opsional): Konfigurasikan penerima pesan. Untuk informasi lebih lanjut tentang cara mengonfigurasi penerima pesan, lihat Kelola Aturan Notifikasi.
Eksekusi pernyataan SQL
Masuk ke Konsol DMS V5.0.
Klik tab Home.
Di panel navigasi di sebelah kiri, klik ikon
untuk membuat instance.Di kotak dialog Add Instance, pilih Lindorm_Compute di bagian NoSQL Database.

Tentukan Instance Region, Instance ID, Database Account, dan Database password untuk instance tersebut, lalu klik Submit.
Di kotak dialog yang muncul, klik Submit untuk masuk ke SQLConsole.
Di tab SQLConsole, masukkan pernyataan SQL yang akan dieksekusi dan klik Execute.
Referensi
Untuk informasi lebih lanjut tentang fitur orkestrasi tugas dari DMS, lihat Ikhtisar.