全部产品
Search
文档中心

DataWorks:Mengaitkan resource komputasi EMR Serverless Spark

更新时间:Feb 09, 2026

Untuk mengembangkan dan mengelola tugas EMR Serverless Spark di DataWorks, Anda harus terlebih dahulu mengaitkan ruang kerja EMR Serverless Spark dengan DataWorks sebagai resource komputasi Serverless Spark. Setelah dikaitkan, resource tersebut dapat digunakan untuk pengembangan data di DataWorks.

Prasyarat

  • Ruang kerja EMR Serverless Spark telah dibuat.

  • Ruang kerja DataWorks telah dibuat. Pengguna RAM yang melakukan operasi telah ditambahkan ke ruang kerja tersebut dan diberikan peran Workspace Administrator.

    Penting

    Hanya ruang kerja yang diatur ke Use Data Studio (New Version) yang didukung.

  • Anda telah membuat kelompok resource Serverless dan menyambungkannya ke ruang kerja DataWorks target.

Batasan

  • Wilayah yang didukung: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).

  • Izin:

    Operator

    Izin yang diperlukan

    Akun Alibaba Cloud

    Tidak diperlukan izin tambahan.

    Pengguna RAM/Peran RAM

    • Izin manajemen DataWorks: Hanya anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau anggota dengan izin AliyunDataWorksFullAccess yang dapat membuat resource komputasi. Untuk informasi selengkapnya, lihat Memberikan izin Workspace Administrator kepada pengguna.

    • Izin layanan EMR Serverless Spark:

      • Kebijakan akses AliyunEMRServerlessSparkFullAccess.

      • Izin Owner ruang kerja EMR Serverless Spark. Untuk informasi selengkapnya, lihat Mengelola pengguna dan peran.

Buka halaman daftar resource komputasi

  1. Masuk ke Konsol DataWorks. Alihkan ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih More > Management Center. Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.

  2. Di panel navigasi sebelah kiri, klik Computing Resource.

Mengaitkan resource komputasi Serverless Spark

Di halaman resource komputasi, Anda dapat mengonfigurasi dan menyambungkan resource komputasi Serverless Spark.

  1. Pilih jenis resource komputasi yang akan dikaitkan.

    1. Klik Associate Computing Resource untuk membuka halaman Associate Computing Resource.

    2. Di halaman Associate Computing Resource, atur jenis resource komputasi ke Serverless Spark. Halaman konfigurasi Associate Serverless Spark Computing Resource akan terbuka.

  2. Konfigurasikan resource komputasi Serverless Spark.

    Di halaman Associate Serverless Spark Computing Resource, konfigurasikan parameter sesuai dengan tabel berikut.

    Parameter

    Deskripsi

    Spark Workspace

    Pilih ruang kerja Spark yang ingin Anda sambungkan. Anda juga dapat mengklik Create di menu drop-down untuk membuat ruang kerja Spark.

    Default Engine Version

    Pilih versi mesin database yang akan digunakan.

    • Saat Anda membuat tugas EMR Spark di Data Studio, versi mesin database ini akan digunakan secara default.

    • Untuk menetapkan versi mesin database yang berbeda untuk tugas yang berbeda, definisikan di pengaturan advanced pada jendela pengeditan tugas Spark.

    Default Message Queue

    Pilih antrian sumber daya yang akan digunakan. Anda juga dapat mengklik Create di daftar drop-down untuk menambahkan antrian.

    • Saat Anda membuat tugas EMR Spark di Data Studio, antrian sumber daya ini akan digunakan secara default.

    • Untuk menetapkan antrian sumber daya yang berbeda untuk tugas yang berbeda, definisikan di pengaturan advanced pada jendela pengeditan tugas Spark.

    Default Kyuubi Gateway

    Opsional. Status konfigurasi Kyuubi Gateway memengaruhi cara tugas berikut dijalankan:

    • Jika Kyuubi Gateway dikonfigurasi:

      • Semua tugas terkait, seperti EMR Spark SQL/Kyuubi dan Serverless Spark SQL/Kyuubi, dijalankan melalui Kyuubi Gateway.

    • Jika Kyuubi Gateway tidak dikonfigurasi:

      • Tugas EMR Spark SQL dan Serverless Spark SQL dijalankan menggunakan spark-submit.

      • Tugas EMR Kyuubi dan Serverless Kyuubi gagal dijalankan.

    Untuk mengonfigurasi ini, buka EMR Serverless Spark Console > Operation Center > Gateway > Kyuubi Gateway untuk membuat Kyuubi Gateway dan token.

    • Jika Kerberos tidak diaktifkan: Klik nama Kyuubi Gateway untuk mendapatkan URL JDBC dan token. Gabungkan keduanya untuk membentuk string koneksi lengkap.

    • Kerberos diaktifkan: Dapatkan string koneksi Beeline berdasarkan informasi Kerberos yang telah Anda konfigurasi. Untuk informasi selengkapnya, lihat Menggunakan Kerberos dengan Kyuubi Gateway.

      # Contoh string koneksi standar
      jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token>
      # Contoh string koneksi Kerberos (Jangan menghilangkan principal layanan kyuubi)
      jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM

    Default Access Identity

    Definisikan identitas yang digunakan untuk mengakses ruang kerja Spark dari ruang kerja DataWorks saat ini.

    • Lingkungan pengembangan: Hanya identitas Executor yang didukung.

    • Lingkungan produksi: Identitas Alibaba Cloud Account, RAM User, dan Task Owner didukung.

    Computing Resource Instance Name

    Nama ini mengidentifikasi resource komputasi. Saat runtime, nama instans digunakan untuk memilih resource komputasi bagi suatu tugas.

  3. Klik OK untuk menyelesaikan konfigurasi.

Konfigurasi parameter Spark global

Di DataWorks, Anda dapat menentukan parameter Spark untuk setiap modul di tingkat ruang kerja. Anda juga dapat mengatur apakah parameter global memiliki prioritas lebih tinggi daripada parameter lokal dalam modul tertentu, seperti Data Studio. Setelah dikonfigurasi, parameter Spark tersebut akan digunakan secara default saat menjalankan tugas.

Cakupan Parameter

Metode Konfigurasi

Menerapkan konfigurasi global

Anda dapat mengonfigurasi parameter SPARK global untuk modul DataWorks di tingkat ruang kerja guna menjalankan pekerjaan EMR. Anda juga dapat menentukan apakah parameter SPARK global ini memiliki prioritas lebih tinggi daripada parameter SPARK yang dikonfigurasi dalam modul tertentu. Untuk informasi selengkapnya, lihat Mengonfigurasi parameter SPARK global.

Berlaku pada satu node

Di modul Data Studio, Anda dapat menetapkan properti SPARK spesifik untuk tugas node tunggal di halaman pengeditan node. Modul produk lain tidak mendukung pengaturan properti SPARK secara terpisah.

Kontrol akses

Hanya peran berikut yang dapat mengonfigurasi parameter Spark global:

  • Akun Alibaba Cloud.

  • Pengguna RAM atau Peran RAM dengan izin AliyunDataWorksFullAccess.

  • Pengguna RAM dengan peran administrator ruang kerja.

Konfigurasi parameter SPARK global

Untuk informasi selengkapnya tentang cara mengonfigurasi parameter Spark resource komputasi Serverless Spark, lihat Petunjuk konfigurasi pekerjaan.

  1. Buka halaman resource komputasi dan temukan resource komputasi Serverless Spark yang telah Anda sambungkan.

  2. Klik Spark Parameters untuk membuka panel konfigurasi parameter Spark dan melihat pengaturan parameter Spark global.

  3. Atur parameter Spark global.

    Di pojok kanan atas halaman Spark Parameters, klik Edit Spark Parameters untuk mengonfigurasi parameter Spark global dan prioritasnya untuk setiap modul.

    Catatan

    Pengaturan ini berlaku secara global untuk ruang kerja. Sebelum mengonfigurasi parameter, pastikan ruang kerja yang benar telah dipilih.

    Parameter

    Langkah

    Spark Property

    Konfigurasikan properti Spark yang akan digunakan saat menjalankan tugas Serverless Spark.

    Global Settings Take Precedence

    Jika Anda memilih opsi ini, konfigurasi global akan mengambil prioritas dibandingkan konfigurasi dalam modul produk. Tugas akan dijalankan berdasarkan properti SPARK global.

    • Konfigurasi Global: Ini adalah properti Spark yang dikonfigurasi di Management Center > Computing Resources untuk resource komputasi Serverless Spark yang sesuai di halaman Spark Parameters.

      Saat ini, Anda hanya dapat menetapkan parameter SPARK global untuk modul Data Studio, Operation Center, dan DataAnalysis.

    • Konfigurasi dalam modul produk:

      • Data Studio: Untuk node EMR Spark, EMR Kyuubi, EMR Spark SQL, EMR Spark Streaming, Serverless Spark Batch, Serverless Spark SQL, dan Serverless Kyuubi, Anda dapat menetapkan properti SPARK untuk tugas node tunggal di tab Debugging Configurations atau Scheduling di bawah Spark Parameters pada halaman pengeditan node.

      • Modul produk lain: Penyetelan properti SPARK dalam modul-modul ini tidak didukung.

  4. Klik OK untuk menyimpan parameter Spark global.

Konfigurasi pemetaan akun kluster

Anda dapat mengonfigurasi secara manual pemetaan antara akun Alibaba Cloud anggota penyewa DataWorks dan akun identitas kluster EMR. Hal ini memungkinkan anggota penyewa DataWorks menjalankan tugas di EMR Serverless Spark menggunakan identitas kluster yang dipetakan.

Penting

Fitur ini hanya tersedia untuk kelompok resource Serverless. Jika Anda membeli kelompok resource Serverless sebelum 15 Agustus 2025 dan ingin menggunakan fitur ini, Anda harus membuat tiket untuk melakukan upgrade kelompok resource tersebut.

  1. Buka halaman resource komputasi dan temukan resource komputasi Serverless Spark yang telah Anda sambungkan.

  2. Klik Account Mappings untuk membuka panel konfigurasi Account Mappings.

  3. Klik Edit Account Mapping untuk mengonfigurasi pemetaan akun kluster. Anda dapat mengonfigurasi parameter berdasarkan Mapping Type yang dipilih.

    Jenis Pemetaan Akun

    Deskripsi eksekusi tugas

    Deskripsi konfigurasi

    System account mapping

    Menggunakan akun kluster yang memiliki nama sama dengan Default Access Identity dalam informasi dasar resource komputasi untuk menjalankan tugas node EMR Spark, EMR Spark SQL, EMR Kyuubi, dan Mengembangkan Notebook di lingkungan pengembangan pribadi.

    Secara default, pemetaan nama yang sama digunakan. Untuk menggunakan pemetaan akun yang berbeda, Anda dapat mengonfigurasi akun yang berbeda secara manual.

    OPEN LDAP account mapping

    Menggunakan Default Access Identity dalam informasi dasar resource komputasi untuk menjalankan tugas EMR Spark dan EMR Spark SQL.

    Menggunakan akun OpenLDAP yang dipetakan ke identitas akses default dalam informasi dasar resource komputasi untuk menjalankan tugas node EMR Kyuubi dan Mengembangkan Notebook di lingkungan pengembangan pribadi.

    Jika Anda telah mengonfigurasi dan mengaktifkan otentikasi LDAP untuk Kyuubi Gateway, Anda harus mengonfigurasi pemetaan antara Alibaba Cloud Account dan akun OpenLDAP (LDAP Account, LDAP Password) untuk menjalankan tugas yang sesuai.

    Penting

    Jika akun Alibaba Cloud yang diperlukan untuk menjalankan tugas DataWorks tidak ada dalam daftar pemetaan akun, tugas tersebut mungkin gagal dijalankan.

    Kerberos account mapping

    Gunakan Default Access Identity dari informasi dasar resource komputasi untuk menjalankan EMR Spark dan EMR Spark SQL Jobs.

    Akun Kerberos yang dipetakan dari identitas akses default dalam informasi dasar resource komputasi digunakan untuk menjalankan tugas node EMR Kyuubi.

    1. Unggah file krb5.conf untuk layanan Kerberos yang dikonfigurasi di kluster EMR Serverless Spark.

    2. Untuk akun Alibaba Cloud yang ditentukan sebagai identitas akses default, konfigurasikan principal dan keytab yang diperlukan untuk otentikasi Kerberos.

  4. Klik Confirm untuk menyelesaikan konfigurasi pemetaan akun kluster.

Langkah selanjutnya

Setelah mengonfigurasi resource komputasi Serverless Spark, Anda dapat menggunakannya untuk mengembangkan tugas node di Pengembangan Data. Untuk informasi selengkapnya, lihat Node EMR Spark, Node EMR Spark SQL, Node EMR Spark Streaming, Node EMR Kyuubi, Node Serverless Spark Batch, Node Serverless Spark SQL, dan Node Serverless Kyuubi.