Panduan cepat untuk pekerjaan SparkSQL - E-MapReduce

EMR Serverless Spark memungkinkan Anda mengedit dan menjalankan pekerjaan menggunakan kode SQL. Topik ini menjelaskan cara membuat, memulai, dan memelihara pekerjaan SQL.

Prasyarat

Anda memiliki Akun Alibaba Cloud. Untuk informasi selengkapnya, lihat Daftar akun.
Peran yang diperlukan telah diberikan. Untuk informasi selengkapnya, lihat Memberikan peran ke Akun Alibaba Cloud.
Ruang kerja dan instans sesi telah dibuat. Untuk informasi selengkapnya, lihat Membuat ruang kerja dan Mengelola sesi SQL.

Langkah 1: Membuat dan menerbitkan pekerjaan pengembangan

Penting

Pekerjaan harus diterbitkan sebelum dapat digunakan dalam alur kerja.

Buka halaman Pengembangan Data.
1. Masuk ke Konsol EMR.
2. Di panel navigasi kiri, pilih EMR Serverless > Spark.
3. Pada halaman Spark, klik nama ruang kerja yang dituju.
4. Pada halaman EMR Serverless Spark, di panel navigasi kiri, klik Data Development.

Buat pekerjaan users_task.

Pada tab Development, klik ikon .
Pada kotak dialog Create, masukkan nama, misalnya users_task, biarkan jenis tetap sebagai default SparkSQL, lalu klik OK.

Salin kode berikut ke tab Spark SQL baru (users_task).

CREATE TABLE IF NOT EXISTS students (
  name VARCHAR(64),          
  address VARCHAR(64)       
)
USING PARQUET  
PARTITIONED BY (data_date STRING)              
OPTIONS (
  'path'='oss://<bucketname>/path/'
);


INSERT OVERWRITE TABLE students PARTITION (data_date = '${ds}') VALUES
  ('Ashua Hill', '456 Erica Ct, Cupertino'),
  ('Brian Reed', '723 Kern Ave, Palo Alto');

Tabel berikut menjelaskan variabel tanggal yang didukung. Nilai default adalah hari sebelumnya.

Variabel	Jenis data	Deskripsi
{data_date}	str	Variabel yang menunjukkan tanggal. Formatnya adalah `YYYY-MM-DD`. Contoh: 2023-09-18.
{ds}	str
{dt}	str
{data_date_nodash}	str	Variabel yang menunjukkan tanggal. Formatnya adalah `YYYYMMDD`. Contoh: 20230918.
{ds_nodash}	str
{dt_nodash}	str
{ts}	str	Variabel yang menunjukkan stempel waktu. Formatnya adalah `YYYY-MM-DDTHH:MM:SS`. Contoh: 2023-09-18T16:07:43.
{ts_nodash}	str	Variabel yang menunjukkan stempel waktu. Formatnya adalah `YYYYMMDDHHMMSS`. Contoh: 20230918160743.

Dari daftar drop-down database dan sesi, pilih database dan instans sesi yang sedang Berjalan.
Anda juga dapat memilih Create SQL Session dari daftar drop-down untuk membuat sesi baru. Untuk informasi selengkapnya, lihat Mengelola sesi SQL.
Klik Run untuk mengeksekusi pekerjaan.
Hasil ditampilkan pada tab Execution Results. Jika terjadi pengecualian, Anda dapat melihat detailnya pada tab Execution Issues.

Terbitkan pekerjaan users_task.
Catatan
Parameter yang ditentukan untuk suatu pekerjaan akan diterbitkan bersamanya dan digunakan saat pekerjaan tersebut dijalankan dalam pipeline. Parameter sesi digunakan saat pekerjaan dijalankan di editor SQL.
1. Pada tab Spark SQL baru, klik Publish.
2. Pada kotak dialog, masukkan deskripsi untuk penerbitan tersebut lalu klik OK.
Buat pekerjaan users_count.
1. Pada tab Development, klik ikon .
2. Pada kotak dialog Create, masukkan nama seperti users_count, terima jenis default SparkSQL, lalu klik OK.
3. Salin kode berikut ke tab pekerjaan Spark SQL baru (users_count).
```
SELECT COUNT(1) FROM students;
```
4. Dari daftar drop-down database dan sesi, pilih database dan instans sesi yang sedang Berjalan.
  Anda juga dapat memilih Create SQL Session dari daftar drop-down untuk membuat sesi baru. Untuk informasi selengkapnya tentang manajemen sesi, lihat Mengelola sesi SQL.
5. Klik Run untuk mengeksekusi pekerjaan.
  Tab Execution Results menampilkan hasilnya. Jika terjadi pengecualian, Anda dapat melihatnya pada tab Execution Issues.
Terbitkan pekerjaan users_count.
Catatan
Parameter yang ditentukan untuk suatu pekerjaan akan diterbitkan bersamanya dan digunakan saat pekerjaan tersebut dijalankan dalam pipeline. Parameter sesi digunakan saat pekerjaan dijalankan di editor SQL.
1. Pada tab pekerjaan Spark SQL baru, klik Publish.
2. Pada kotak dialog yang muncul, masukkan deskripsi untuk penerbitan tersebut lalu klik OK.

Langkah 2: Membuat alur kerja dan nodenya

Di panel navigasi kiri, klik Workflows.
Pada halaman Workflows, klik Create Workflow.
Pada panel Create Workflow, masukkan Workflow Name seperti spark_workflow_task, lalu klik Next.
Anda dapat mengonfigurasi parameter pada bagian Other Settings sesuai kebutuhan. Untuk informasi selengkapnya tentang parameter tersebut, lihat Mengelola alur kerja.
Tambahkan node users_task.
1. Pada kanvas node baru, Anda dapat mengklik Add Node.
2. Pada panel Add Node, pilih pekerjaan users_task yang telah diterbitkan dari daftar drop-down Source File Path, lalu klik Save.
Tambahkan node users_count.
1. Klik Add Node.
2. Pada panel Add Node, pilih pekerjaan users_count yang telah diterbitkan dari daftar drop-down Source File Path dan users_task dari daftar drop-down Upstream Node, lalu klik Save.
Pada kanvas node baru, klik Publish Workflow.
Pada kotak dialog Publish, masukkan deskripsi untuk penerbitan tersebut lalu klik OK.

Langkah 3: Menjalankan alur kerja

Pada halaman Workflows, di kolom Workflow Name, klik nama alur kerja baru (misalnya, spark_workflow_task).
Pada halaman Workflow Instances, klik Run.
Catatan
Setelah Anda mengonfigurasi siklus penjadwalan, Anda juga dapat memulai penjadwalan pada halaman Workflows dengan mengaktifkan sakelar di sebelah kiri.
Pada kotak dialog Run Workflow, klik OK.

Langkah 4: Melihat status instans

Pada halaman Workflows, klik alur kerja yang dituju, seperti spark_workflow_task.
Pada halaman Workflow Instances, Anda dapat melihat semua instans alur kerja serta waktu proses dan status masing-masing.
Klik Workflow Run ID di bagian Workflow Instances atau tab Workflow Instance Graph untuk melihat graf instans alur kerja.
Klik instans node yang dituju. Pada kotak dialog informasi node yang muncul, Anda dapat melakukan operasi atau melihat informasi sesuai kebutuhan.
Untuk informasi selengkapnya tentang operasi terkait dan detailnya, lihat Melihat instans node.
Sebagai contoh, klik Spark UI untuk membuka halaman Pekerjaan Spark, tempat Anda dapat melihat informasi real-time tentang tugas Spark.
Klik Job Run ID untuk membuka halaman Job History. Pada halaman ini, Anda dapat melihat metrik, diagnostik, dan log.

Langkah 5: O&M Alur Kerja

Pada halaman Workflows, klik nama alur kerja yang dituju untuk membuka halaman Workflow Instances. Anda dapat:

Di bagian Workflow Information, Anda dapat mengedit beberapa parameter.
Bagian Workflow Instances mencantumkan semua instans alur kerja. Klik Workflow Run ID untuk membuka graf instans alur kerja yang sesuai.

Langkah 6: Melihat data

Di panel navigasi kiri, klik Data Development.
Buat pekerjaan pengembangan SparkSQL. Kemudian, masukkan dan jalankan perintah berikut untuk melihat detail tabel:
```
SELECT * FROM students;
```
Informasi berikut dikembalikan:

Dokumen terkait

Untuk informasi selengkapnya tentang cara membuat antrian sumber daya, lihat Mengelola antrian sumber daya.
Untuk informasi selengkapnya tentang cara membuat sesi SQL, lihat Mengelola sesi SQL.