Untuk mengembangkan dan mengelola tugas EMR Serverless Spark di DataWorks, Anda harus terlebih dahulu mengaitkan ruang kerja EMR Serverless Spark dengan DataWorks sebagai resource komputasi Serverless Spark. Setelah dikaitkan, resource tersebut dapat digunakan untuk pengembangan data di DataWorks.
Prasyarat
Ruang kerja EMR Serverless Spark telah dibuat.
Ruang kerja DataWorks telah dibuat. Pengguna RAM yang melakukan operasi telah ditambahkan ke ruang kerja tersebut dan diberikan peran Workspace Administrator.
PentingHanya ruang kerja yang diatur ke Use Data Studio (New Version) yang didukung.
Anda telah membuat kelompok resource Serverless dan menyambungkannya ke ruang kerja DataWorks target.
Batasan
Wilayah yang didukung: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).
Izin:
Operator
Izin yang diperlukan
Akun Alibaba Cloud
Tidak diperlukan izin tambahan.
Pengguna RAM/Peran RAM
Izin manajemen DataWorks: Hanya anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau anggota dengan izin
AliyunDataWorksFullAccessyang dapat membuat resource komputasi. Untuk informasi selengkapnya, lihat Memberikan izin Workspace Administrator kepada pengguna.Izin layanan EMR Serverless Spark:
Kebijakan akses
AliyunEMRServerlessSparkFullAccess.Izin
Ownerruang kerja EMR Serverless Spark. Untuk informasi selengkapnya, lihat Mengelola pengguna dan peran.
Buka halaman daftar resource komputasi
Masuk ke Konsol DataWorks. Alihkan ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih . Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.
Di panel navigasi sebelah kiri, klik Computing Resource.
Mengaitkan resource komputasi Serverless Spark
Di halaman resource komputasi, Anda dapat mengonfigurasi dan menyambungkan resource komputasi Serverless Spark.
Pilih jenis resource komputasi yang akan dikaitkan.
Klik Associate Computing Resource untuk membuka halaman Associate Computing Resource.
Di halaman Associate Computing Resource, atur jenis resource komputasi ke Serverless Spark. Halaman konfigurasi Associate Serverless Spark Computing Resource akan terbuka.
Konfigurasikan resource komputasi Serverless Spark.
Di halaman Associate Serverless Spark Computing Resource, konfigurasikan parameter sesuai dengan tabel berikut.
Parameter
Deskripsi
Spark Workspace
Pilih ruang kerja Spark yang ingin Anda sambungkan. Anda juga dapat mengklik Create di menu drop-down untuk membuat ruang kerja Spark.
Default Engine Version
Pilih versi mesin database yang akan digunakan.
Saat Anda membuat tugas EMR Spark di Data Studio, versi mesin database ini akan digunakan secara default.
Untuk menetapkan versi mesin database yang berbeda untuk tugas yang berbeda, definisikan di pengaturan advanced pada jendela pengeditan tugas Spark.
Default Message Queue
Pilih antrian sumber daya yang akan digunakan. Anda juga dapat mengklik Create di daftar drop-down untuk menambahkan antrian.
Saat Anda membuat tugas EMR Spark di Data Studio, antrian sumber daya ini akan digunakan secara default.
Untuk menetapkan antrian sumber daya yang berbeda untuk tugas yang berbeda, definisikan di pengaturan advanced pada jendela pengeditan tugas Spark.
Default Kyuubi Gateway
Opsional. Status konfigurasi Kyuubi Gateway memengaruhi cara tugas berikut dijalankan:
Jika Kyuubi Gateway dikonfigurasi:
Semua tugas terkait, seperti EMR Spark SQL/Kyuubi dan Serverless Spark SQL/Kyuubi, dijalankan melalui Kyuubi Gateway.
Jika Kyuubi Gateway tidak dikonfigurasi:
Tugas EMR Spark SQL dan Serverless Spark SQL dijalankan menggunakan
spark-submit.Tugas EMR Kyuubi dan Serverless Kyuubi gagal dijalankan.
Untuk mengonfigurasi ini, buka untuk membuat Kyuubi Gateway dan token.
Jika Kerberos tidak diaktifkan: Klik nama Kyuubi Gateway untuk mendapatkan URL JDBC dan token. Gabungkan keduanya untuk membentuk string koneksi lengkap.
Kerberos diaktifkan: Dapatkan string koneksi Beeline berdasarkan informasi Kerberos yang telah Anda konfigurasi. Untuk informasi selengkapnya, lihat Menggunakan Kerberos dengan Kyuubi Gateway.
# Contoh string koneksi standar jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token> # Contoh string koneksi Kerberos (Jangan menghilangkan principal layanan kyuubi) jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM
Default Access Identity
Definisikan identitas yang digunakan untuk mengakses ruang kerja Spark dari ruang kerja DataWorks saat ini.
Lingkungan pengembangan: Hanya identitas Executor yang didukung.
Lingkungan produksi: Identitas Alibaba Cloud Account, RAM User, dan Task Owner didukung.
Computing Resource Instance Name
Nama ini mengidentifikasi resource komputasi. Saat runtime, nama instans digunakan untuk memilih resource komputasi bagi suatu tugas.
Klik OK untuk menyelesaikan konfigurasi.
Konfigurasi parameter Spark global
Di DataWorks, Anda dapat menentukan parameter Spark untuk setiap modul di tingkat ruang kerja. Anda juga dapat mengatur apakah parameter global memiliki prioritas lebih tinggi daripada parameter lokal dalam modul tertentu, seperti Data Studio. Setelah dikonfigurasi, parameter Spark tersebut akan digunakan secara default saat menjalankan tugas.
Cakupan Parameter | Metode Konfigurasi |
Menerapkan konfigurasi global | Anda dapat mengonfigurasi parameter SPARK global untuk modul DataWorks di tingkat ruang kerja guna menjalankan pekerjaan EMR. Anda juga dapat menentukan apakah parameter SPARK global ini memiliki prioritas lebih tinggi daripada parameter SPARK yang dikonfigurasi dalam modul tertentu. Untuk informasi selengkapnya, lihat Mengonfigurasi parameter SPARK global. |
Berlaku pada satu node | Di modul Data Studio, Anda dapat menetapkan properti SPARK spesifik untuk tugas node tunggal di halaman pengeditan node. Modul produk lain tidak mendukung pengaturan properti SPARK secara terpisah. |
Kontrol akses
Hanya peran berikut yang dapat mengonfigurasi parameter Spark global:
Akun Alibaba Cloud.
Pengguna RAM atau Peran RAM dengan izin
AliyunDataWorksFullAccess.Pengguna RAM dengan peran administrator ruang kerja.
Konfigurasi parameter SPARK global
Untuk informasi selengkapnya tentang cara mengonfigurasi parameter Spark resource komputasi Serverless Spark, lihat Petunjuk konfigurasi pekerjaan.
Buka halaman resource komputasi dan temukan resource komputasi Serverless Spark yang telah Anda sambungkan.
Klik Spark Parameters untuk membuka panel konfigurasi parameter Spark dan melihat pengaturan parameter Spark global.
Atur parameter Spark global.
Di pojok kanan atas halaman Spark Parameters, klik Edit Spark Parameters untuk mengonfigurasi parameter Spark global dan prioritasnya untuk setiap modul.
CatatanPengaturan ini berlaku secara global untuk ruang kerja. Sebelum mengonfigurasi parameter, pastikan ruang kerja yang benar telah dipilih.
Parameter
Langkah
Spark Property
Konfigurasikan properti Spark yang akan digunakan saat menjalankan tugas Serverless Spark.
Anda dapat klik tombol Add, masukkan Spark Property Name dan Spark Property Value yang sesuai untuk menetapkan properti Spark.
Untuk informasi tentang parameter konfigurasi Spark yang didukung, lihat Spark Configuration dan Daftar parameter Spark Conf kustom.
Global Settings Take Precedence
Jika Anda memilih opsi ini, konfigurasi global akan mengambil prioritas dibandingkan konfigurasi dalam modul produk. Tugas akan dijalankan berdasarkan properti SPARK global.
Konfigurasi Global: Ini adalah properti Spark yang dikonfigurasi di untuk resource komputasi Serverless Spark yang sesuai di halaman Spark Parameters.
Saat ini, Anda hanya dapat menetapkan parameter SPARK global untuk modul Data Studio, Operation Center, dan DataAnalysis.
Konfigurasi dalam modul produk:
Data Studio: Untuk node EMR Spark, EMR Kyuubi, EMR Spark SQL, EMR Spark Streaming, Serverless Spark Batch, Serverless Spark SQL, dan Serverless Kyuubi, Anda dapat menetapkan properti SPARK untuk tugas node tunggal di tab Debugging Configurations atau Scheduling di bawah Spark Parameters pada halaman pengeditan node.
Modul produk lain: Penyetelan properti SPARK dalam modul-modul ini tidak didukung.
Klik OK untuk menyimpan parameter Spark global.
Konfigurasi pemetaan akun kluster
Anda dapat mengonfigurasi secara manual pemetaan antara akun Alibaba Cloud anggota penyewa DataWorks dan akun identitas kluster EMR. Hal ini memungkinkan anggota penyewa DataWorks menjalankan tugas di EMR Serverless Spark menggunakan identitas kluster yang dipetakan.
Fitur ini hanya tersedia untuk kelompok resource Serverless. Jika Anda membeli kelompok resource Serverless sebelum 15 Agustus 2025 dan ingin menggunakan fitur ini, Anda harus membuat tiket untuk melakukan upgrade kelompok resource tersebut.
Buka halaman resource komputasi dan temukan resource komputasi Serverless Spark yang telah Anda sambungkan.
Klik Account Mappings untuk membuka panel konfigurasi Account Mappings.
Klik Edit Account Mapping untuk mengonfigurasi pemetaan akun kluster. Anda dapat mengonfigurasi parameter berdasarkan Mapping Type yang dipilih.
Jenis Pemetaan Akun
Deskripsi eksekusi tugas
Deskripsi konfigurasi
System account mapping
Menggunakan akun kluster yang memiliki nama sama dengan Default Access Identity dalam informasi dasar resource komputasi untuk menjalankan tugas node EMR Spark, EMR Spark SQL, EMR Kyuubi, dan Mengembangkan Notebook di lingkungan pengembangan pribadi.
Secara default, pemetaan nama yang sama digunakan. Untuk menggunakan pemetaan akun yang berbeda, Anda dapat mengonfigurasi akun yang berbeda secara manual.
OPEN LDAP account mapping
Menggunakan Default Access Identity dalam informasi dasar resource komputasi untuk menjalankan tugas EMR Spark dan EMR Spark SQL.
Menggunakan akun OpenLDAP yang dipetakan ke identitas akses default dalam informasi dasar resource komputasi untuk menjalankan tugas node EMR Kyuubi dan Mengembangkan Notebook di lingkungan pengembangan pribadi.
Jika Anda telah mengonfigurasi dan mengaktifkan otentikasi LDAP untuk Kyuubi Gateway, Anda harus mengonfigurasi pemetaan antara Alibaba Cloud Account dan akun OpenLDAP (LDAP Account, LDAP Password) untuk menjalankan tugas yang sesuai.
PentingJika akun Alibaba Cloud yang diperlukan untuk menjalankan tugas DataWorks tidak ada dalam daftar pemetaan akun, tugas tersebut mungkin gagal dijalankan.
Kerberos account mapping
Gunakan Default Access Identity dari informasi dasar resource komputasi untuk menjalankan EMR Spark dan EMR Spark SQL Jobs.
Akun Kerberos yang dipetakan dari identitas akses default dalam informasi dasar resource komputasi digunakan untuk menjalankan tugas node EMR Kyuubi.
Unggah file krb5.conf untuk layanan Kerberos yang dikonfigurasi di kluster EMR Serverless Spark.
Untuk akun Alibaba Cloud yang ditentukan sebagai identitas akses default, konfigurasikan principal dan keytab yang diperlukan untuk otentikasi Kerberos.
Klik Confirm untuk menyelesaikan konfigurasi pemetaan akun kluster.
Langkah selanjutnya
Setelah mengonfigurasi resource komputasi Serverless Spark, Anda dapat menggunakannya untuk mengembangkan tugas node di Pengembangan Data. Untuk informasi selengkapnya, lihat Node EMR Spark, Node EMR Spark SQL, Node EMR Spark Streaming, Node EMR Kyuubi, Node Serverless Spark Batch, Node Serverless Spark SQL, dan Node Serverless Kyuubi.