Gunakan DMS untuk mengelola pekerjaan - Lindorm

Sistem Pemrosesan Terdistribusi Lindorm (LDPS) yang disediakan oleh Lindorm memungkinkan Anda menggunakan fitur orkestrasi tugas dari Data Management (DMS) untuk menjadwalkan pekerjaan Lindorm Spark serta melihat riwayat publikasi dan log dari pekerjaan tersebut. LDPS dapat memenuhi kebutuhan komputasi dalam skenario seperti produksi data, analitik interaktif, pembelajaran mesin, dan komputasi graf. Topik ini menjelaskan cara menggunakan DMS untuk mengelola pekerjaan Lindorm Spark.

Prasyarat

DMS telah diaktifkan.
LDPS diaktifkan untuk instance Lindorm. Untuk informasi lebih lanjut, lihat Aktifkan LDPS dan Modifikasi Konfigurasi.
Pekerjaan telah dikembangkan. Untuk informasi lebih lanjut, lihat Buat Pekerjaan dalam Java atau Buat Pekerjaan dalam Python.
Pekerjaan yang telah dikembangkan diunggah ke HDFS atau Object Storage Service (OSS). Untuk informasi lebih lanjut, lihat Unggah File di Konsol Lindorm.

Buat aliran tugas Lindorm Spark

Masuk ke Konsol DMS V5.0.
Buka halaman Task Orchestration.
- Mode Sederhana:
  1. Di bagian Scene Guide, klik Data Transmission and Processing (DTS).
  2. Klik Task Orchestration di bagian Data processing di sisi kanan halaman.
- Mode Normal: Di bilah navigasi atas, pilih DTS > Data Development > Task Orchestration.
Di halaman Task Orchestration, klik Create Task Flow.
Di kotak dialog Create Task Flow, tentukan Task Flow Name dan Description, lalu klik OK.
Di bagian Task Type di sisi kiri, seret node Lindorm Spark ke kanvas, dan hubungkan satu node ke node lain untuk menentukan dependensi antar node.

Konfigurasikan node Lindorm Spark.

Klik dua kali node Lindorm Spark, atau klik node Lindorm Spark lalu klik ikon .

Di halaman yang muncul, konfigurasikan parameter dasar dan parameter kustom dari pekerjaan yang ingin Anda jalankan.

Di bagian Basic configuration, konfigurasikan parameter dasar. Tabel berikut menjelaskan parameter dasar.

Parameter	Deskripsi
Region	Pilih wilayah tempat instance Lindorm Anda ditempatkan.
Instance Lindorm	Pilih ID instance Lindorm Anda.
Tipe Tugas	Pilih jenis pekerjaan Spark. Jenis pekerjaan berikut didukung: JAR Python SQL

Di bagian Job configuration, konfigurasikan parameter kustom dari pekerjaan yang ingin Anda jalankan. Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari berbagai jenis pekerjaan Spark.

Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari pekerjaan Spark JAR:

{
  "mainResource" : "oss://path/to/your/file.jar",
  "mainClass" : "path.to.main.class",
  "args" : [ "arg1", "arg2" ],
  "configs" : {
    "spark.hadoop.fs.oss.endpoint" : "",
    "spark.hadoop.fs.oss.accessKeyId" : "",
    "spark.hadoop.fs.oss.accessKeySecret" : "",
    "spark.hadoop.fs.oss.impl" : "org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem",
    "spark.sql.shuffle.partitions" : "20"
  }
}

Parameter	Tipe	Diperlukan	Deskripsi	Contoh
mainResource	String	Ya	Path tempat paket JAR disimpan di HDFS atau OSS.	HDFS path tempat paket JAR disimpan: hdfs:///path/spark-examples_2.12-3.1.1.jar OSS path tempat paket JAR disimpan: oss://testBucketName/path/spark-examples_2.12-3.1.1.jar
mainClass	String	Ya	Kelas yang digunakan sebagai titik masuk program Anda dalam pekerjaan JAR.	com.aliyun.ldspark.SparkPi
args	Array	Tidak	Parameter yang dilewatkan ke parameter mainClass.	["arg1", "arg2"]
configs	Json	Tidak	Parameter sistem dari pekerjaan Spark. Jika pekerjaan diunggah ke OSS, Anda harus mengonfigurasi parameter berikut di configs: spark.hadoop.fs.oss.endpoint: Path tempat pekerjaan Spark disimpan di OSS. spark.hadoop.fs.oss.accessKeyId: ID AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan ID AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey. spark.hadoop.fs.oss.accessKeySecret: Rahasia AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan rahasia AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey. spark.hadoop.fs.oss.impl: Kelas yang digunakan untuk mengakses OSS. Setel nilainya menjadi org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem.	{ "spark.sql.shuffle.partitions": "200"}

Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari pekerjaan Spark Python:

{
  "mainResource" : "oss://path/to/your/file.py",
  "args" : [ "arg1", "arg2" ],
  "configs" : {
    "spark.hadoop.fs.oss.endpoint" : "",
    "spark.hadoop.fs.oss.accessKeyId" : "",
    "spark.hadoop.fs.oss.accessKeySecret" : "",
    "spark.hadoop.fs.oss.impl" : "org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem",
    "spark.submit.pyFiles" : "oss://path/to/your/project_file.py,oss://path/to/your/project_module.zip",
    "spark.archives" : "oss://path/to/your/environment.tar.gz#environment",
    "spark.sql.shuffle.partitions" : "20"
  }
}

Parameter	Tipe	Diperlukan	Deskripsi	Contoh
mainResource	String	Ya	Path tempat file Python disimpan di OSS atau HDFS.	OSS path tempat file Python disimpan: oss://testBucketName/path/spark-examples.py HDFS path tempat file Python disimpan: hdfs:///path/spark-examples.py
args	Array	Tidak	Parameter yang dilewatkan ke parameter mainClass.	["arg1", "arg2"]
configs	Json	Tidak	Parameter sistem dari pekerjaan Spark. Jika Anda perlu mengunggah pekerjaan ke OSS, Anda harus mengonfigurasi parameter berikut di configs: spark.hadoop.fs.oss.endpoint: Path tempat pekerjaan Spark disimpan di OSS. spark.hadoop.fs.oss.accessKeyId: ID AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan ID AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey. spark.hadoop.fs.oss.accessKeySecret: Rahasia AccessKey yang digunakan untuk mengakses OSS. Anda bisa mendapatkan rahasia AccessKey di konsol. Untuk informasi lebih lanjut, lihat Dapatkan pasangan AccessKey. spark.hadoop.fs.oss.impl: Kelas yang digunakan untuk mengakses OSS. Setel nilainya menjadi org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem.	{"spark.sql.shuffle.partitions": "200"}

Bagian berikut menjelaskan template konfigurasi dan parameter kustom dari pekerjaan SQL:

{
  "mainResource" : "oss://path/to/your/file.sql",
  "configs" : {
    "spark.hadoop.fs.oss.endpoint" : "",
    "spark.hadoop.fs.oss.accessKeyId" : "",
    "spark.hadoop.fs.oss.accessKeySecret" : "",
    "spark.hadoop.fs.oss.impl" : "org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem",
    "spark.sql.shuffle.partitions" : "20"
  }
}

Parameter	Tipe	Diperlukan	Deskripsi	Contoh
mainResource	String	Ya	Path tempat file SQL disimpan di OSS atau HDFS.	OSS path tempat file SQL disimpan: oss://testBucketName/path/spark-examples.sql HDFS path tempat file SQL disimpan: hdfs:///path/spark-examples.sql
configs	Json	Tidak	Konfigurasi lainnya dari pekerjaan SQL.	{ "spark.executor.memory" : "8g"}

Setelah konfigurasi selesai, klik Try Run di sudut kiri atas untuk memeriksa apakah pekerjaan berjalan sesuai harapan.

Publikasikan aliran tugas. Setelah semua node dikonfigurasi, klik Publish di sudut kiri atas halaman aliran tugas saat ini.

Lihat riwayat publikasi dan log dari aliran tugas

Di halaman Task Orchestration, klik nama aliran tugas yang riwayat publikasi dan log-nya ingin Anda lihat.
Di halaman yang muncul, klik Go to O&M di sudut kanan atas.
Lihat riwayat publikasi dan log dari aliran tugas.
- Lihat riwayat publikasi dari aliran tugas. Di halaman Task Flow Information, klik tab Published Tasks untuk melihat riwayat publikasi dari aliran tugas.
- Lihat log dari aliran tugas.
  1. Di tab Running History, pilih Scheduling Trigger atau Triggered Manually dari daftar drop-down di sudut kiri atas untuk melihat detail semua node dalam aliran tugas.
  2. Klik View di baris node yang ingin Anda lihat. Lalu, lihat log untuk pengiriman pekerjaan Lindorm Spark, dan dapatkan ID pekerjaan dan SparkUI dari node.
    Catatan
    Jika pekerjaan gagal dikirimkan, berikan ID pekerjaan dan SparkUI ketika Anda mengirim tiket.

Pengaturan Lanjutan

Catatan

Anda dapat mengonfigurasi aliran tugas Lindorm Spark di konsol DMS. Setelah aliran tugas Lindorm Spark dikonfigurasi, Anda harus mempublikasikan ulang aliran tugas tersebut.

Konfigurasikan pengaturan penjadwalan

Anda dapat mengonfigurasi kebijakan penjadwalan berdasarkan kebutuhan bisnis Anda. Aliran tugas Lindorm Spark akan dieksekusi secara otomatis berdasarkan kebijakan penjadwalan. Langkah-langkah berikut menjelaskan cara mengonfigurasi kebijakan penjadwalan:

Di halaman Task Orchestration, klik nama aliran tugas yang ingin Anda konfigurasi kebijakan penjadwalannya.
Di sudut kiri bawah halaman yang muncul, klik Task Flow Information.
Di bagian Scheduling Settings di sebelah kanan, aktifkan Enable Scheduling dan konfigurasikan kebijakan penjadwalan. Tabel berikut menjelaskan parameter yang dapat Anda konfigurasi.
Contoh: Jika Anda ingin aliran tugas dijadwalkan pada pukul 00:00 dan 12:00 setiap hari, konfigurasikan kebijakan penjadwalan dengan menyetel parameter berikut:
- Setel Scheduling Type ke Penjadwalan Siklus.
- Pilih Jam dari daftar drop-down Scheduling Cycle.
- Di bidang Timed Scheduling, pilih Waktu Tertentu. Pilih 0Jam dan 12Jam dari daftar drop-down Specified Time.

Konfigurasikan variabel

Untuk aliran tugas yang penjadwalan siklusnya diaktifkan, Anda dapat mengonfigurasi variabel waktu untuk pekerjaan yang ingin Anda jalankan. Sebagai contoh, Anda dapat mengonfigurasi variabel waktu bizdate untuk node tersebut. Variabel waktu menentukan hari sebelum waktu titik ketika tugas dijalankan. Langkah-langkah berikut menjelaskan cara mengonfigurasi variabel waktu:

Di halaman aliran tugas saat ini, klik dua kali node Lindorm Spark, atau klik node Lindorm Spark dan klik ikon .
Di panel navigasi di sebelah kanan, klik Variable Setting.
Di tab Node Variable atau Task Flow Variable, tambahkan variabel.
Di bagian Job configuration, gunakan variabel tersebut. Untuk informasi tentang variabel lainnya, lihat Variabel.

Kelola notifikasi

Jika Anda mengaktifkan fitur notifikasi untuk aliran tugas Anda, sistem akan mengirim pesan notifikasi berdasarkan hasil eksekusi aliran tugas. Langkah-langkah berikut menjelaskan cara mengaktifkan fitur notifikasi:

Di sudut kiri bawah halaman aliran tugas saat ini, klik Notification Configurations.
Aktifkan salah satu sakelar notifikasi berikut berdasarkan kebutuhan bisnis Anda:
- Notifikasi Dasar
  - Notifikasi Sukses: Sistem mengirim pesan notifikasi jika aliran tugas berhasil dieksekusi.
  - Notifikasi Kegagalan: Sistem mengirim pesan notifikasi jika aliran tugas gagal dieksekusi.
- Notifikasi Batas Waktu: Sistem mengirim pesan notifikasi jika aliran tugas melebihi batas waktu.
- Notifikasi Peringatan: Sistem mengirim pesan notifikasi ketika tugas akan segera dimulai.
(Opsional): Konfigurasikan penerima pesan. Untuk informasi lebih lanjut tentang cara mengonfigurasi penerima pesan, lihat Kelola Aturan Notifikasi.

Eksekusi pernyataan SQL

Masuk ke Konsol DMS V5.0.
Klik tab Home.
Di panel navigasi di sebelah kiri, klik ikon untuk membuat instance.
Di kotak dialog Add Instance, pilih Lindorm_Compute di bagian NoSQL Database.
Tentukan Instance Region, Instance ID, Database Account, dan Database password untuk instance tersebut, lalu klik Submit.
Di kotak dialog yang muncul, klik Submit untuk masuk ke SQLConsole.
Di tab SQLConsole, masukkan pernyataan SQL yang akan dieksekusi dan klik Execute.

Referensi

Untuk informasi lebih lanjut tentang fitur orkestrasi tugas dari DMS, lihat Ikhtisar.