Untuk mengembangkan dan mengelola tugas EMR Serverless Spark di DataWorks, Anda harus mengaitkan ruang kerja EMR Serverless Spark dengan DataWorks sehingga ruang kerja tersebut tersedia sebagai resource komputasi untuk pengembangan data.
Prasyarat
Ruang kerja EMR Serverless Spark telah dibuat.
Ruang kerja DataWorks telah dibuat. Pengguna RAM yang melakukan operasi ini telah ditambahkan ke ruang kerja dan diberi peran administrator ruang kerja.
PentingHanya ruang kerja yang diatur ke Use Data Studio (New Version) yang didukung.
Kelompok sumber daya serverless telah dibuat dan dikaitkan dengan ruang kerja DataWorks target.
Batasan
Wilayah yang didukung: Fitur ini tersedia di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).
Izin:
Pengguna/peran
Izin yang diperlukan
Akun Alibaba Cloud
Tidak diperlukan izin tambahan.
Pengguna RAM atau Peran RAM
Izin manajemen DataWorks: Hanya anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau yang memiliki kebijakan
AliyunDataWorksFullAccess, yang dapat membuat resource komputasi. Untuk informasi selengkapnya, lihat Berikan peran Workspace Administrator kepada pengguna.Izin layanan EMR Serverless Spark:
Kebijakan
AliyunEMRServerlessSparkFullAccess.Izin
Owneruntuk ruang kerja EMR Serverless Spark. Untuk informasi selengkapnya, lihat Kelola pengguna dan peran.
Langkah 1: Buka halaman sumber daya komputasi
-
Masuk ke Konsol DataWorks.
-
Beralih ke wilayah tujuan.
-
Di panel navigasi kiri, pilih .
-
Pilih ruang kerja Anda dan klik Go To Management Center.
-
Di panel navigasi kiri, klik Computing Resource.
Kaitkan resource komputasi Serverless Spark
Di halaman Computing Resource, konfigurasikan dan kaitkan resource komputasi Serverless Spark.
Pilih jenis resource komputasi.
Klik Associate Computing Resource untuk membuka halaman Associate Computing Resource.
Di halaman Associate Computing Resource, pilih Serverless Spark sebagai jenis resource. Hal ini akan membuka halaman konfigurasi Associate Serverless Spark Computing Resource.
Konfigurasikan resource komputasi Serverless Spark.
Di halaman Associate Serverless Spark Computing Resource, konfigurasikan parameter berikut.
Parameter
Deskripsi
Spark Workspace
Pilih ruang kerja Spark yang ingin Anda kaitkan. Anda juga dapat mengklik Create dalam daftar drop-down untuk membuat ruang kerja Spark.
Default Engine Version
Pilih versi engine yang akan digunakan.
Saat Anda membuat tugas EMR Spark di Data Studio, versi engine ini akan digunakan secara default.
Untuk menetapkan versi engine berbeda untuk tugas berbeda, definisikan di pengaturan advanced tugas Spark.
Default Resource Queue
Pilih antrian sumber daya yang akan digunakan. Anda juga dapat mengklik Create dalam daftar drop-down untuk menambahkan antrian.
Saat Anda membuat tugas EMR Spark di Data Studio, antrian sumber daya ini akan digunakan secara default.
Untuk menetapkan antrian sumber daya berbeda untuk tugas berbeda, definisikan di pengaturan advanced tugas Spark.
Default Kyuubi Gateway
Opsional. Konfigurasi Kyuubi Gateway memengaruhi cara tugas berikut dijalankan:
Jika Kyuubi Gateway dikonfigurasi:
Kyuubi Gateway menjalankan semua tugas terkait, seperti EMR Spark SQL/Kyuubi dan Serverless Spark SQL/Kyuubi.
Jika Kyuubi Gateway tidak dikonfigurasi:
DataWorks menjalankan tugas EMR Spark SQL dan Serverless Spark SQL menggunakan
spark-submit.Tugas EMR Kyuubi dan Serverless Kyuubi akan gagal.
Untuk mengonfigurasi gateway, buka untuk membuat Kyuubi Gateway dan token.
Jika Kerberos tidak diaktifkan: Klik nama Kyuubi Gateway untuk mendapatkan URL JDBC dan token. Gabungkan keduanya untuk membentuk string koneksi lengkap.
Jika Kerberos diaktifkan: Dapatkan string koneksi Beeline berdasarkan konfigurasi Kerberos Anda. Untuk informasi selengkapnya, lihat Gunakan Kerberos dengan Kyuubi Gateway.
# Contoh string koneksi standar jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token> # Contoh string koneksi dengan Kerberos diaktifkan (Catatan: Jangan menghilangkan principal untuk layanan kyuubi) jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM
Default Access Identity
Identitas yang digunakan DataWorks untuk mengakses ruang kerja Spark ini.
Lingkungan pengembangan: Hanya identitas Executor yang didukung.
Lingkungan produksi: Identitas Alibaba Cloud Account, RAM User, dan Task Owner didukung.
Computing Resource Instance Name
Menentukan nama untuk mengidentifikasi resource komputasi. Saat runtime, nama ini digunakan untuk memilih resource komputasi bagi suatu tugas.
Klik OK untuk menyelesaikan konfigurasi.
Konfigurasikan parameter Spark global
Di DataWorks, Anda dapat menetapkan parameter Spark untuk setiap modul di tingkat ruang kerja. Anda juga dapat menentukan apakah parameter global ini memiliki prioritas lebih tinggi daripada parameter yang dikonfigurasi dalam modul tertentu, seperti Data Studio. Setelah disimpan, tugas akan menggunakan parameter tersebut secara default. Tabel berikut menjelaskan cara mengonfigurasi parameter tersebut.
Lingkup | Metode konfigurasi |
Konfigurasi global | Anda dapat mengonfigurasi parameter Spark global untuk modul DataWorks di tingkat ruang kerja untuk menjalankan tugas EMR. Anda juga dapat menentukan apakah parameter Spark global ini memiliki prioritas lebih tinggi daripada parameter Spark yang dikonfigurasi dalam modul tertentu. Untuk informasi selengkapnya, lihat Konfigurasikan parameter Spark global. |
Konfigurasi spesifik node | Di Data Studio, Anda dapat mengonfigurasi properti Spark untuk masing-masing node di halaman editnya. Modul produk lain tidak mendukung jenis konfigurasi spesifik node ini. |
Izin
Hanya pengguna dan peran berikut yang dapat mengonfigurasi parameter Spark global:
Akun Alibaba Cloud.
Pengguna RAM atau Peran RAM dengan kebijakan
AliyunDataWorksFullAccess.Pengguna RAM dengan peran Workspace Administrator.
Konfigurasikan parameter Spark global
Ikuti langkah-langkah berikut untuk mengonfigurasi parameter Spark global. Untuk informasi selengkapnya tentang cara mengonfigurasi parameter Spark resource komputasi Serverless Spark, lihat Konfigurasi job.
Buka halaman Computing Resource dan temukan resource komputasi Serverless Spark yang telah Anda kaitkan.
Klik Spark-related Parameter untuk membuka panel konfigurasi, tempat Anda dapat melihat pengaturan parameter Spark global.
Tetapkan parameter Spark global.
Klik Edit Spark-related Parameter untuk mengonfigurasi parameter global Spark dan menetapkan prioritasnya untuk setiap modul.
CatatanIni adalah konfigurasi global tingkat ruang kerja. Sebelum melanjutkan, pastikan Anda telah memilih ruang kerja yang benar.
Parameter
Tindakan
Spark Property
Konfigurasikan properti Spark untuk menjalankan tugas Serverless Spark.
Anda dapat mengklik tombol Add di bawah dan masukkan Spark Property Name serta Spark Property Value yang sesuai untuk mengonfigurasi properti Spark.
Untuk daftar properti Spark yang didukung, lihat Spark Configuration dan Parameter Spark Conf kustom.
Global Settings Take Precedence
Jika Anda memilih opsi ini, konfigurasi global akan menggantikan konfigurasi dalam modul produk. Tugas kemudian dijalankan menggunakan properti Spark global.
Konfigurasi global: Mengacu pada properti Spark yang dikonfigurasi di halaman Spark parameters resource komputasi Serverless Spark di .
Saat ini, Anda hanya dapat menetapkan parameter Spark global untuk Data Studio, Operation Center, dan Data Analysis.
Konfigurasi dalam modul produk:
Data Studio: Untuk node EMR Spark, EMR Kyuubi, EMR Spark SQL, EMR Spark Streaming, Serverless Spark batch, Serverless Spark SQL, dan Serverless Kyuubi, Anda dapat menetapkan properti Spark untuk satu node di tab Run Configuration atau Scheduling di halaman edit node.
Modul produk lain: Menetapkan properti Spark dalam modul ini tidak didukung.
Klik OK untuk menyimpan parameter Spark global.
Konfigurasikan pemetaan akun kluster
Anda dapat memetakan secara manual akun Alibaba Cloud anggota DataWorks ke identitas kluster EMR tertentu. Hal ini memungkinkan anggota menjalankan tugas di EMR Serverless Spark menggunakan identitas yang dipetakan.
Fitur ini hanya tersedia untuk kelompok sumber daya serverless. Jika Anda membeli kelompok sumber daya serverless sebelum 15 Agustus 2025 dan ingin menggunakan fitur ini, Anda harus membuat tiket untuk melakukan upgrade kelompok sumber daya.
Buka halaman Computing Resource dan temukan resource komputasi Serverless Spark yang telah Anda kaitkan.
Klik Account Mappings untuk membuka panel konfigurasi Account Mappings.
Klik Edit Account Mapping untuk mengonfigurasi pemetaan akun kluster. Anda dapat mengonfigurasi parameter berdasarkan Mapping Type yang dipilih.
Mapping Type
Eksekusi tugas
Konfigurasi
Mapping to System Account
Menggunakan akun kluster dengan nama yang sama dengan Default Access Identity untuk menjalankan node EMR Spark, EMR Spark SQL, EMR Kyuubi, dan Notebook.
Pemetaan nama yang sama digunakan secara default. Jika Anda perlu menggunakan akun berbeda, Anda dapat mengonfigurasi pemetaan berbeda secara manual.
Mapping to OpenLDAP Account
Menggunakan Default Access Identity untuk menjalankan tugas EMR Spark dan EMR Spark SQL.
Menggunakan akun OpenLDAP yang dipetakan ke identitas akses default untuk menjalankan node EMR Kyuubi dan Notebook.
Jika Anda telah mengonfigurasi dan mengaktifkan otentikasi LDAP untuk Kyuubi Gateway, Anda harus mengonfigurasi pemetaan antara Alibaba Cloud account dan akun OpenLDAP (LDAP Account, LDAP Password) untuk menjalankan tugas terkait.
PentingJika akun Alibaba Cloud yang diperlukan untuk menjalankan tugas DataWorks tidak ada dalam daftar pemetaan akun, tugas tersebut akan gagal.
Mapping to Kerberos Account
Menggunakan Default Access Identity untuk menjalankan tugas EMR Spark dan EMR Spark SQL.
Menggunakan akun Kerberos yang dipetakan ke identitas akses default untuk menjalankan node EMR Kyuubi.
Unggah file krb5.conf dari layanan Kerberos yang dikonfigurasi untuk kluster EMR Serverless Spark.
Untuk akun Alibaba Cloud yang ditentukan sebagai identitas akses default, konfigurasikan principal dan keytab yang diperlukan untuk otentikasi Kerberos.
Klik OK untuk menyimpan konfigurasi pemetaan akun kluster.
Langkah selanjutnya
Setelah Anda mengaitkan resource komputasi Serverless Spark, Anda dapat menggunakannya untuk mengembangkan tugas di Data Studio. Untuk informasi selengkapnya, lihat dokumentasi untuk jenis node berikut: EMR Spark, EMR Spark SQL, EMR Spark Streaming, EMR Kyuubi, Node Serverless Spark Batch, Serverless Spark SQL, dan Serverless Kyuubi.