All Products
Search
Document Center

DataWorks:Kaitkan resource komputasi EMR Serverless Spark

Last Updated:Mar 25, 2026

Untuk mengembangkan dan mengelola tugas EMR Serverless Spark di DataWorks, Anda harus mengaitkan ruang kerja EMR Serverless Spark dengan DataWorks sehingga ruang kerja tersebut tersedia sebagai resource komputasi untuk pengembangan data.

Prasyarat

  • Ruang kerja EMR Serverless Spark telah dibuat.

  • Ruang kerja DataWorks telah dibuat. Pengguna RAM yang melakukan operasi ini telah ditambahkan ke ruang kerja dan diberi peran administrator ruang kerja.

    Penting

    Hanya ruang kerja yang diatur ke Use Data Studio (New Version) yang didukung.

  • Kelompok sumber daya serverless telah dibuat dan dikaitkan dengan ruang kerja DataWorks target.

Batasan

  • Wilayah yang didukung: Fitur ini tersedia di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).

  • Izin:

    Pengguna/peran

    Izin yang diperlukan

    Akun Alibaba Cloud

    Tidak diperlukan izin tambahan.

    Pengguna RAM atau Peran RAM

    • Izin manajemen DataWorks: Hanya anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau yang memiliki kebijakan AliyunDataWorksFullAccess, yang dapat membuat resource komputasi. Untuk informasi selengkapnya, lihat Berikan peran Workspace Administrator kepada pengguna.

    • Izin layanan EMR Serverless Spark:

      • Kebijakan AliyunEMRServerlessSparkFullAccess.

      • Izin Owner untuk ruang kerja EMR Serverless Spark. Untuk informasi selengkapnya, lihat Kelola pengguna dan peran.

Langkah 1: Buka halaman sumber daya komputasi

  1. Masuk ke Konsol DataWorks.

  2. Beralih ke wilayah tujuan.

  3. Di panel navigasi kiri, pilih More > Management Center.

  4. Pilih ruang kerja Anda dan klik Go To Management Center.

  5. Di panel navigasi kiri, klik Computing Resource.

Kaitkan resource komputasi Serverless Spark

Di halaman Computing Resource, konfigurasikan dan kaitkan resource komputasi Serverless Spark.

  1. Pilih jenis resource komputasi.

    1. Klik Associate Computing Resource untuk membuka halaman Associate Computing Resource.

    2. Di halaman Associate Computing Resource, pilih Serverless Spark sebagai jenis resource. Hal ini akan membuka halaman konfigurasi Associate Serverless Spark Computing Resource.

  2. Konfigurasikan resource komputasi Serverless Spark.

    Di halaman Associate Serverless Spark Computing Resource, konfigurasikan parameter berikut.

    Parameter

    Deskripsi

    Spark Workspace

    Pilih ruang kerja Spark yang ingin Anda kaitkan. Anda juga dapat mengklik Create dalam daftar drop-down untuk membuat ruang kerja Spark.

    Default Engine Version

    Pilih versi engine yang akan digunakan.

    • Saat Anda membuat tugas EMR Spark di Data Studio, versi engine ini akan digunakan secara default.

    • Untuk menetapkan versi engine berbeda untuk tugas berbeda, definisikan di pengaturan advanced tugas Spark.

    Default Resource Queue

    Pilih antrian sumber daya yang akan digunakan. Anda juga dapat mengklik Create dalam daftar drop-down untuk menambahkan antrian.

    • Saat Anda membuat tugas EMR Spark di Data Studio, antrian sumber daya ini akan digunakan secara default.

    • Untuk menetapkan antrian sumber daya berbeda untuk tugas berbeda, definisikan di pengaturan advanced tugas Spark.

    Default Kyuubi Gateway

    Opsional. Konfigurasi Kyuubi Gateway memengaruhi cara tugas berikut dijalankan:

    • Jika Kyuubi Gateway dikonfigurasi:

      • Kyuubi Gateway menjalankan semua tugas terkait, seperti EMR Spark SQL/Kyuubi dan Serverless Spark SQL/Kyuubi.

    • Jika Kyuubi Gateway tidak dikonfigurasi:

      • DataWorks menjalankan tugas EMR Spark SQL dan Serverless Spark SQL menggunakan spark-submit.

      • Tugas EMR Kyuubi dan Serverless Kyuubi akan gagal.

    Untuk mengonfigurasi gateway, buka EMR Serverless Spark Console > Operation Center > Gateway > Kyuubi Gateway untuk membuat Kyuubi Gateway dan token.

    • Jika Kerberos tidak diaktifkan: Klik nama Kyuubi Gateway untuk mendapatkan URL JDBC dan token. Gabungkan keduanya untuk membentuk string koneksi lengkap.

    • Jika Kerberos diaktifkan: Dapatkan string koneksi Beeline berdasarkan konfigurasi Kerberos Anda. Untuk informasi selengkapnya, lihat Gunakan Kerberos dengan Kyuubi Gateway.

      # Contoh string koneksi standar
      jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token>
      # Contoh string koneksi dengan Kerberos diaktifkan (Catatan: Jangan menghilangkan principal untuk layanan kyuubi)
      jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM

    Default Access Identity

    Identitas yang digunakan DataWorks untuk mengakses ruang kerja Spark ini.

    • Lingkungan pengembangan: Hanya identitas Executor yang didukung.

    • Lingkungan produksi: Identitas Alibaba Cloud Account, RAM User, dan Task Owner didukung.

    Computing Resource Instance Name

    Menentukan nama untuk mengidentifikasi resource komputasi. Saat runtime, nama ini digunakan untuk memilih resource komputasi bagi suatu tugas.

  3. Klik OK untuk menyelesaikan konfigurasi.

Konfigurasikan parameter Spark global

Di DataWorks, Anda dapat menetapkan parameter Spark untuk setiap modul di tingkat ruang kerja. Anda juga dapat menentukan apakah parameter global ini memiliki prioritas lebih tinggi daripada parameter yang dikonfigurasi dalam modul tertentu, seperti Data Studio. Setelah disimpan, tugas akan menggunakan parameter tersebut secara default. Tabel berikut menjelaskan cara mengonfigurasi parameter tersebut.

Lingkup

Metode konfigurasi

Konfigurasi global

Anda dapat mengonfigurasi parameter Spark global untuk modul DataWorks di tingkat ruang kerja untuk menjalankan tugas EMR. Anda juga dapat menentukan apakah parameter Spark global ini memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi dalam modul tertentu. Untuk informasi selengkapnya, lihat Konfigurasikan parameter Spark global.

Konfigurasi spesifik node

Di Data Studio, Anda dapat mengonfigurasi properti Spark untuk masing-masing node di halaman editnya. Modul produk lain tidak mendukung jenis konfigurasi spesifik node ini.

Izin

Hanya pengguna dan peran berikut yang dapat mengonfigurasi parameter Spark global:

  • Akun Alibaba Cloud.

  • Pengguna RAM atau Peran RAM dengan kebijakan AliyunDataWorksFullAccess.

  • Pengguna RAM dengan peran Workspace Administrator.

Konfigurasikan parameter Spark global

Ikuti langkah-langkah berikut untuk mengonfigurasi parameter Spark global. Untuk informasi selengkapnya tentang cara mengonfigurasi parameter Spark resource komputasi Serverless Spark, lihat Konfigurasi job.

  1. Buka halaman Computing Resource dan temukan resource komputasi Serverless Spark yang telah Anda kaitkan.

  2. Klik Spark-related Parameter untuk membuka panel konfigurasi, tempat Anda dapat melihat pengaturan parameter Spark global.

  3. Tetapkan parameter Spark global.

    Klik Edit Spark-related Parameter untuk mengonfigurasi parameter global Spark dan menetapkan prioritasnya untuk setiap modul.

    Catatan

    Ini adalah konfigurasi global tingkat ruang kerja. Sebelum melanjutkan, pastikan Anda telah memilih ruang kerja yang benar.

    Parameter

    Tindakan

    Spark Property

    Konfigurasikan properti Spark untuk menjalankan tugas Serverless Spark.

    • Anda dapat mengklik tombol Add di bawah dan masukkan Spark Property Name serta Spark Property Value yang sesuai untuk mengonfigurasi properti Spark.

    • Untuk daftar properti Spark yang didukung, lihat Spark Configuration dan Parameter Spark Conf kustom.

    Global Settings Take Precedence

    Jika Anda memilih opsi ini, konfigurasi global akan menggantikan konfigurasi dalam modul produk. Tugas kemudian dijalankan menggunakan properti Spark global.

    • Konfigurasi global: Mengacu pada properti Spark yang dikonfigurasi di halaman Spark parameters resource komputasi Serverless Spark di Management Center > Computing resource.

      Saat ini, Anda hanya dapat menetapkan parameter Spark global untuk Data Studio, Operation Center, dan Data Analysis.

    • Konfigurasi dalam modul produk:

      • Data Studio: Untuk node EMR Spark, EMR Kyuubi, EMR Spark SQL, EMR Spark Streaming, Serverless Spark batch, Serverless Spark SQL, dan Serverless Kyuubi, Anda dapat menetapkan properti Spark untuk satu node di tab Run Configuration atau Scheduling di halaman edit node.

      • Modul produk lain: Menetapkan properti Spark dalam modul ini tidak didukung.

  4. Klik OK untuk menyimpan parameter Spark global.

Konfigurasikan pemetaan akun kluster

Anda dapat memetakan secara manual akun Alibaba Cloud anggota DataWorks ke identitas kluster EMR tertentu. Hal ini memungkinkan anggota menjalankan tugas di EMR Serverless Spark menggunakan identitas yang dipetakan.

Penting

Fitur ini hanya tersedia untuk kelompok sumber daya serverless. Jika Anda membeli kelompok sumber daya serverless sebelum 15 Agustus 2025 dan ingin menggunakan fitur ini, Anda harus membuat tiket untuk melakukan upgrade kelompok sumber daya.

  1. Buka halaman Computing Resource dan temukan resource komputasi Serverless Spark yang telah Anda kaitkan.

  2. Klik Account Mappings untuk membuka panel konfigurasi Account Mappings.

  3. Klik Edit Account Mapping untuk mengonfigurasi pemetaan akun kluster. Anda dapat mengonfigurasi parameter berdasarkan Mapping Type yang dipilih.

    Mapping Type

    Eksekusi tugas

    Konfigurasi

    Mapping to System Account

    Menggunakan akun kluster dengan nama yang sama dengan Default Access Identity untuk menjalankan node EMR Spark, EMR Spark SQL, EMR Kyuubi, dan Notebook.

    Pemetaan nama yang sama digunakan secara default. Jika Anda perlu menggunakan akun berbeda, Anda dapat mengonfigurasi pemetaan berbeda secara manual.

    Mapping to OpenLDAP Account

    Menggunakan Default Access Identity untuk menjalankan tugas EMR Spark dan EMR Spark SQL.

    Menggunakan akun OpenLDAP yang dipetakan ke identitas akses default untuk menjalankan node EMR Kyuubi dan Notebook.

    Jika Anda telah mengonfigurasi dan mengaktifkan otentikasi LDAP untuk Kyuubi Gateway, Anda harus mengonfigurasi pemetaan antara Alibaba Cloud account dan akun OpenLDAP (LDAP Account, LDAP Password) untuk menjalankan tugas terkait.

    Penting

    Jika akun Alibaba Cloud yang diperlukan untuk menjalankan tugas DataWorks tidak ada dalam daftar pemetaan akun, tugas tersebut akan gagal.

    Mapping to Kerberos Account

    Menggunakan Default Access Identity untuk menjalankan tugas EMR Spark dan EMR Spark SQL.

    Menggunakan akun Kerberos yang dipetakan ke identitas akses default untuk menjalankan node EMR Kyuubi.

    1. Unggah file krb5.conf dari layanan Kerberos yang dikonfigurasi untuk kluster EMR Serverless Spark.

    2. Untuk akun Alibaba Cloud yang ditentukan sebagai identitas akses default, konfigurasikan principal dan keytab yang diperlukan untuk otentikasi Kerberos.

  4. Klik OK untuk menyimpan konfigurasi pemetaan akun kluster.

Langkah selanjutnya

Setelah Anda mengaitkan resource komputasi Serverless Spark, Anda dapat menggunakannya untuk mengembangkan tugas di Data Studio. Untuk informasi selengkapnya, lihat dokumentasi untuk jenis node berikut: EMR Spark, EMR Spark SQL, EMR Spark Streaming, EMR Kyuubi, Node Serverless Spark Batch, Serverless Spark SQL, dan Serverless Kyuubi.