全部产品
Search
文档中心

DataWorks:Menyambungkan sumber daya komputasi EMR Serverless Spark

更新时间:Nov 15, 2025

Untuk mengembangkan dan mengelola tugas EMR Serverless Spark di DataWorks, Anda harus terlebih dahulu menyambungkan ruang kerja EMR Serverless Spark Anda sebagai sumber daya komputasi Serverless Spark DataWorks. Setelah sumber daya disambungkan, Anda dapat menggunakannya untuk pengembangan data di DataWorks.

Prasyarat

Batasan

  • Batasan wilayah: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Virginia).

  • Batasan izin:

    Operator

    Izin yang diperlukan

    Akun Alibaba Cloud

    Tidak diperlukan izin tambahan.

    Pengguna RAM/Peran RAM

    • Izin manajemen DataWorks: Hanya anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau anggota dengan izin AliyunDataWorksFullAccess yang dapat membuat sumber daya komputasi. Untuk informasi lebih lanjut tentang cara memberikan izin, lihat Memberikan izin Administrator Ruang Kerja kepada pengguna.

    • Izin layanan EMR Serverless Spark:

      • Kebijakan akses AliyunEMRServerlessSparkFullAccess.

      • Izin Owner pada ruang kerja EMR Serverless Spark. Untuk informasi lebih lanjut, lihat Mengelola pengguna dan peran.

Buka halaman daftar sumber daya komputasi

  1. Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih More > Management Center. Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.

  2. Di panel navigasi sebelah kiri, klik Computing Resources.

Menyambungkan sumber daya komputasi Serverless Spark

Di halaman sumber daya komputasi, Anda dapat mengonfigurasi parameter untuk menyambungkan sumber daya komputasi Serverless Spark.

  1. Pilih jenis sumber daya komputasi yang akan disambungkan.

    1. Klik Attach Computing Resource untuk membuka halaman Attach Computing Resource.

    2. Di halaman Attach Computing Resource, atur jenis sumber daya komputasi menjadi Serverless Spark untuk membuka halaman konfigurasi Attach Serverless Spark Computing Resource.

  2. Konfigurasikan sumber daya komputasi Serverless Spark.

    Di halaman Attach Serverless Spark Computing Resource, konfigurasikan parameter seperti yang dijelaskan dalam tabel berikut.

    Parameter

    Deskripsi

    Spark Workspace

    Pilih ruang kerja Spark yang ingin Anda sambungkan. Anda juga dapat mengklik Create di daftar drop-down untuk membuat ruang kerja Spark.

    Role Authorization

    Untuk memungkinkan DataWorks mendapatkan informasi tentang kluster EMR Serverless Spark, klik Add Service-linked Role As Workspace Administrator saat pertama kali memilih ruang kerja Spark.

    Penting

    Setelah Anda membuat peran terkait layanan, jangan hapus peran administrator dari peran terkait layanan DataWorks AliyunServiceRoleForDataWorksOnEmr dan AliyunServiceRoleForDataworksEngine dari ruang kerja E-MapReduce Serverless Spark.

    Default Engine Version

    Pilih versi mesin database yang akan digunakan.

    • Saat Anda membuat tugas EMR Spark di DataStudio, versi mesin database ini digunakan secara default.

    • Untuk mengatur versi mesin database yang berbeda untuk tugas yang berbeda, definisikan di pengaturan lanjutan jendela pengeditan tugas Spark.

    Default Message Queue

    Pilih antrian sumber daya yang akan digunakan. Anda juga dapat mengklik Create di daftar drop-down untuk menambahkan antrian.

    • Saat Anda membuat tugas EMR Spark di DataStudio, antrian sumber daya ini digunakan secara default.

    • Untuk mengatur antrian sumber daya yang berbeda untuk tugas yang berbeda, definisikan di pengaturan lanjutan jendela pengeditan tugas Spark.

    Default SQL Compute

    Opsional. SQL Compute default yang digunakan dalam tugas node EMR Spark SQL. Anda dapat mengklik Create di daftar drop-down untuk membuat sesi SQL.

    • Sesi SQL memungkinkan Anda mengonfigurasi sumber daya waktu proses untuk setiap sesi. Hal ini memberikan isolasi sumber daya tingkat tugas dan penjadwalan yang fleksibel. Menetapkan tugas yang berbeda ke sesi SQL yang berbeda meningkatkan penggunaan sumber daya kluster, mencegah konflik sumber daya, dan memenuhi berbagai kebutuhan tugas.

    • Untuk mengatur sumber daya SQL Compute yang berbeda untuk tugas yang berbeda, definisikan di pengaturan lanjutan jendela pengeditan tugas Spark.

    Default Access Identity

    Menentukan identitas yang digunakan untuk mengakses ruang kerja Spark dari ruang kerja DataWorks saat ini.

    • Lingkungan pengembangan: Hanya identitas Executor yang didukung.

    • Lingkungan produksi: Identitas Alibaba Cloud Account, RAM User, dan Task Owner didukung.

    Computing Resource Instance Name

    Mengidentifikasi sumber daya komputasi. Saat waktu proses, nama instans digunakan untuk memilih sumber daya komputasi untuk suatu tugas.

  3. Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi Serverless Spark.

Konfigurasi parameter Spark global

Di DataWorks, Anda dapat menentukan parameter Spark untuk setiap modul di tingkat ruang kerja. Anda juga dapat mengatur apakah parameter global memiliki prioritas lebih tinggi daripada parameter lokal dalam modul tertentu, seperti Pengembangan Data. Setelah konfigurasi selesai, parameter Spark yang ditentukan digunakan secara default untuk menjalankan tugas. Pengaturan dikonfigurasi sebagai berikut:

Cakupan Parameter

Metode Konfigurasi

Konfigurasi global

Anda dapat mengonfigurasi parameter SPARK global untuk modul DataWorks di tingkat ruang kerja untuk menjalankan tugas EMR. Anda juga dapat menentukan apakah parameter SPARK global ini memiliki prioritas lebih tinggi daripada parameter SPARK yang dikonfigurasi dalam modul tertentu. Untuk informasi lebih lanjut, lihat Konfigurasi parameter SPARK global.

Node tunggal

Di modul Pengembangan Data, Anda dapat mengatur properti SPARK tertentu untuk tugas node tunggal di halaman pengeditan node. Modul produk lain tidak mendukung pengaturan properti SPARK secara terpisah.

Kontrol akses

Hanya peran berikut yang dapat mengonfigurasi parameter Spark global:

  • Akun Alibaba Cloud.

  • Pengguna RAM atau Peran RAM dengan izin AliyunDataWorksFullAccess.

  • Pengguna RAM dengan peran Administrator Ruang Kerja.

Lihat parameter SPARK global

  1. Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.

  2. Klik SPARK Parameters untuk membuka panel konfigurasi parameter SPARK dan melihat pengaturan parameter global.

Konfigurasi parameter SPARK global

Konfigurasikan parameter Spark global sebagai berikut. Untuk informasi lebih lanjut tentang cara mengonfigurasi parameter Spark sumber daya komputasi Serverless Spark, lihat Petunjuk konfigurasi pekerjaan.

  1. Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.

  2. Klik SPARK Parameters untuk membuka panel konfigurasi parameter Spark dan melihat pengaturan parameter Spark global.

  3. Atur parameter Spark global.

    Di pojok kanan atas halaman SPARK Parameters, klik Edit SPARK Parameters untuk mengonfigurasi parameter SPARK global dan mengatur prioritasnya untuk setiap modul.

    Catatan

    Ini adalah pengaturan global untuk ruang kerja. Sebelum mengonfigurasi parameter, pastikan Anda telah memilih ruang kerja yang benar.

    Parameter

    Instruksi

    Spark Properties

    Konfigurasikan properti Spark yang akan digunakan saat menjalankan tugas Serverless Spark.

    Global Configuration Priority

    Jika Anda memilih opsi ini, konfigurasi global akan mengambil prioritas daripada konfigurasi dalam modul produk. Tugas dijalankan berdasarkan properti SPARK global.

    • Konfigurasi Global: Ini adalah properti Spark yang dikonfigurasi di Management Hub > Computing Resources untuk sumber daya komputasi Serverless Spark yang sesuai di halaman SPARK Parameters.

      Saat ini, Anda hanya dapat mengatur parameter SPARK global untuk modul Pengembangan Data (DataStudio) dan Pusat Operasi.

    • Konfigurasi dalam modul produk:

      • Pengembangan Data (DataStudio): Untuk node EMR Spark, EMR Spark SQL, Serverless Spark Batch, Serverless Spark SQL, dan Serverless Kyuubi, Anda dapat mengatur properti SPARK untuk tugas node tunggal di bagian Spark Parameters pada tab Debug Configuration atau Scheduling Configuration di halaman pengeditan node.

      • Modul produk lain: Pengaturan properti SPARK dalam modul ini tidak didukung.

  4. Klik Confirm untuk menyimpan parameter SPARK global.

Konfigurasi pemetaan akun kluster

Anda dapat mengonfigurasi secara manual pemetaan antara akun Alibaba Cloud anggota penyewa DataWorks dan akun identitas tertentu kluster EMR. Hal ini memungkinkan anggota penyewa DataWorks menjalankan tugas di EMR Serverless Spark menggunakan identitas kluster yang dipetakan.

Penting

Fitur ini hanya tersedia untuk kelompok sumber daya Serverless. Jika Anda membeli kelompok sumber daya Serverless sebelum 15 Agustus 2025 dan ingin menggunakan fitur ini, Anda harus mengajukan tiket untuk meningkatkan kelompok sumber daya.

  1. Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.

  2. Klik Account Mapping untuk membuka panel konfigurasi Account Mapping.

  3. Klik Edit Account Mapping dan konfigurasikan parameter berdasarkan Mapping Type yang dipilih.

    Akun Mapping Type

    Deskripsi eksekusi tugas

    Deskripsi konfigurasi

    Pemetaan akun sistem

    Menggunakan akun kluster yang memiliki nama sama dengan Default Access Identity dalam informasi dasar sumber daya komputasi untuk menjalankan tugas node EMR Spark, EMR Spark SQL, EMR Kyuubi, dan Notebook.

    Secara default, pemetaan nama yang sama digunakan. Untuk menggunakan pemetaan akun yang berbeda, Anda dapat mengonfigurasi akun yang berbeda secara manual.

    Pemetaan akun OpenLDAP

    Menggunakan Default Access Identity dalam informasi dasar sumber daya komputasi untuk menjalankan tugas EMR Spark dan EMR Spark SQL.

    Menggunakan akun OpenLDAP yang dipetakan ke identitas akses default dalam informasi dasar sumber daya komputasi untuk menjalankan tugas node EMR Kyuubi dan Notebook.

    Jika Anda telah mengonfigurasi dan mengaktifkan autentikasi LDAP untuk Kyuubi Gateway, Anda harus mengonfigurasi pemetaan antara Alibaba Cloud Account dan akun OpenLDAP (LDAP Account dan LDAP Password) untuk menjalankan tugas.

    Penting

    Jika akun Alibaba Cloud yang diperlukan untuk menjalankan tugas DataWorks tidak ada dalam daftar pemetaan akun, tugas mungkin gagal dijalankan.

  4. Klik Confirm untuk menyelesaikan konfigurasi pemetaan akun kluster.

Konfigurasi koneksi Kyuubi

Untuk menjalankan tugas yang terkait dengan node EMR Kyuubi pada sumber daya komputasi EMR Serverless Spark, Anda harus mengonfigurasi koneksi Kyuubi sebagai berikut.

Penting

Fitur ini hanya tersedia untuk kelompok sumber daya Serverless. Jika Anda membeli kelompok sumber daya Serverless sebelum 15 Agustus 2025, dan ingin menggunakan fitur ini, Anda harus mengajukan tiket untuk meningkatkan kelompok sumber daya.

  • Prasyarat: Anda telah membuat Kyuubi Gateway dan token untuk kluster EMR Serverless Spark.

  • Prosedur:

    1. Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.

    2. Klik Kyuubi Configuration untuk membuka panel Kyuubi Configuration.

    3. Di pojok kanan atas halaman Kyuubi Configuration, klik Edit Kyuubi Configuration untuk mengonfigurasi koneksi Kyuubi kluster.

      1. Dapatkan token yang telah Anda buat. Untuk informasi lebih lanjut, lihat Mengelola Kyuubi Gateway.

      2. Tambahkan token ke akhir parameter JDBC URL: .../;transportMode=http;httpPath=cliservice/token/.

        Jika informasi .../;transportMode=http;httpPath=cliservice/token/ tidak ada, ikuti petunjuk di layar untuk membuat Kyuubi Gateway.
      3. Klik Confirm untuk menyelesaikan konfigurasi.

Langkah selanjutnya

Setelah Anda mengonfigurasi sumber daya komputasi Serverless Spark, Anda dapat menggunakannya untuk mengembangkan tugas node di Pengembangan Data. Untuk informasi lebih lanjut, lihat Node EMR Spark, Node EMR Spark SQL, Node Serverless Spark Batch, Node Serverless Spark SQL, dan Node Serverless Kyuubi.