Untuk mengembangkan dan mengelola tugas EMR Serverless Spark di DataWorks, Anda harus terlebih dahulu menyambungkan ruang kerja EMR Serverless Spark Anda sebagai sumber daya komputasi Serverless Spark DataWorks. Setelah sumber daya disambungkan, Anda dapat menggunakannya untuk pengembangan data di DataWorks.
Prasyarat
Ruang kerja EMR Serverless Spark telah dibuat.
Ruang kerja DataWorks telah dibuat. Pengguna RAM yang melakukan operasi ditambahkan ke ruang kerja dan diberi peran Administrator Ruang Kerja.
PentingHanya ruang kerja yang diatur ke Use Data Studio (New Version) yang didukung.
Kelompok sumber daya Serverless digunakan. Kelompok sumber daya tersebut harus disambungkan ke ruang kerja DataWorks target.
Batasan
Batasan wilayah: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Virginia).
Batasan izin:
Operator
Izin yang diperlukan
Akun Alibaba Cloud
Tidak diperlukan izin tambahan.
Pengguna RAM/Peran RAM
Izin manajemen DataWorks: Hanya anggota ruang kerja dengan peran O&M atau Workspace Administrator, atau anggota dengan izin
AliyunDataWorksFullAccessyang dapat membuat sumber daya komputasi. Untuk informasi lebih lanjut tentang cara memberikan izin, lihat Memberikan izin Administrator Ruang Kerja kepada pengguna.Izin layanan EMR Serverless Spark:
Kebijakan akses
AliyunEMRServerlessSparkFullAccess.Izin
Ownerpada ruang kerja EMR Serverless Spark. Untuk informasi lebih lanjut, lihat Mengelola pengguna dan peran.
Buka halaman daftar sumber daya komputasi
Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih . Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.
Di panel navigasi sebelah kiri, klik Computing Resources.
Menyambungkan sumber daya komputasi Serverless Spark
Di halaman sumber daya komputasi, Anda dapat mengonfigurasi parameter untuk menyambungkan sumber daya komputasi Serverless Spark.
Pilih jenis sumber daya komputasi yang akan disambungkan.
Klik Attach Computing Resource untuk membuka halaman Attach Computing Resource.
Di halaman Attach Computing Resource, atur jenis sumber daya komputasi menjadi Serverless Spark untuk membuka halaman konfigurasi Attach Serverless Spark Computing Resource.
Konfigurasikan sumber daya komputasi Serverless Spark.
Di halaman Attach Serverless Spark Computing Resource, konfigurasikan parameter seperti yang dijelaskan dalam tabel berikut.
Parameter
Deskripsi
Spark Workspace
Pilih ruang kerja Spark yang ingin Anda sambungkan. Anda juga dapat mengklik Create di daftar drop-down untuk membuat ruang kerja Spark.
Role Authorization
Untuk memungkinkan DataWorks mendapatkan informasi tentang kluster EMR Serverless Spark, klik Add Service-linked Role As Workspace Administrator saat pertama kali memilih ruang kerja Spark.
PentingSetelah Anda membuat peran terkait layanan, jangan hapus peran administrator dari peran terkait layanan DataWorks
AliyunServiceRoleForDataWorksOnEmrdanAliyunServiceRoleForDataworksEnginedari ruang kerja E-MapReduce Serverless Spark.Default Engine Version
Pilih versi mesin database yang akan digunakan.
Saat Anda membuat tugas EMR Spark di DataStudio, versi mesin database ini digunakan secara default.
Untuk mengatur versi mesin database yang berbeda untuk tugas yang berbeda, definisikan di pengaturan lanjutan jendela pengeditan tugas Spark.
Default Message Queue
Pilih antrian sumber daya yang akan digunakan. Anda juga dapat mengklik Create di daftar drop-down untuk menambahkan antrian.
Saat Anda membuat tugas EMR Spark di DataStudio, antrian sumber daya ini digunakan secara default.
Untuk mengatur antrian sumber daya yang berbeda untuk tugas yang berbeda, definisikan di pengaturan lanjutan jendela pengeditan tugas Spark.
Default SQL Compute
Opsional. SQL Compute default yang digunakan dalam tugas node EMR Spark SQL. Anda dapat mengklik Create di daftar drop-down untuk membuat sesi SQL.
Sesi SQL memungkinkan Anda mengonfigurasi sumber daya waktu proses untuk setiap sesi. Hal ini memberikan isolasi sumber daya tingkat tugas dan penjadwalan yang fleksibel. Menetapkan tugas yang berbeda ke sesi SQL yang berbeda meningkatkan penggunaan sumber daya kluster, mencegah konflik sumber daya, dan memenuhi berbagai kebutuhan tugas.
Untuk mengatur sumber daya SQL Compute yang berbeda untuk tugas yang berbeda, definisikan di pengaturan lanjutan jendela pengeditan tugas Spark.
Default Access Identity
Menentukan identitas yang digunakan untuk mengakses ruang kerja Spark dari ruang kerja DataWorks saat ini.
Lingkungan pengembangan: Hanya identitas Executor yang didukung.
Lingkungan produksi: Identitas Alibaba Cloud Account, RAM User, dan Task Owner didukung.
Computing Resource Instance Name
Mengidentifikasi sumber daya komputasi. Saat waktu proses, nama instans digunakan untuk memilih sumber daya komputasi untuk suatu tugas.
Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi Serverless Spark.
Konfigurasi parameter Spark global
Di DataWorks, Anda dapat menentukan parameter Spark untuk setiap modul di tingkat ruang kerja. Anda juga dapat mengatur apakah parameter global memiliki prioritas lebih tinggi daripada parameter lokal dalam modul tertentu, seperti Pengembangan Data. Setelah konfigurasi selesai, parameter Spark yang ditentukan digunakan secara default untuk menjalankan tugas. Pengaturan dikonfigurasi sebagai berikut:
Cakupan Parameter | Metode Konfigurasi |
Konfigurasi global | Anda dapat mengonfigurasi parameter SPARK global untuk modul DataWorks di tingkat ruang kerja untuk menjalankan tugas EMR. Anda juga dapat menentukan apakah parameter SPARK global ini memiliki prioritas lebih tinggi daripada parameter SPARK yang dikonfigurasi dalam modul tertentu. Untuk informasi lebih lanjut, lihat Konfigurasi parameter SPARK global. |
Node tunggal | Di modul Pengembangan Data, Anda dapat mengatur properti SPARK tertentu untuk tugas node tunggal di halaman pengeditan node. Modul produk lain tidak mendukung pengaturan properti SPARK secara terpisah. |
Kontrol akses
Hanya peran berikut yang dapat mengonfigurasi parameter Spark global:
Akun Alibaba Cloud.
Pengguna RAM atau Peran RAM dengan izin
AliyunDataWorksFullAccess.Pengguna RAM dengan peran Administrator Ruang Kerja.
Lihat parameter SPARK global
Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.
Klik SPARK Parameters untuk membuka panel konfigurasi parameter SPARK dan melihat pengaturan parameter global.
Konfigurasi parameter SPARK global
Konfigurasikan parameter Spark global sebagai berikut. Untuk informasi lebih lanjut tentang cara mengonfigurasi parameter Spark sumber daya komputasi Serverless Spark, lihat Petunjuk konfigurasi pekerjaan.
Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.
Klik SPARK Parameters untuk membuka panel konfigurasi parameter Spark dan melihat pengaturan parameter Spark global.
Atur parameter Spark global.
Di pojok kanan atas halaman SPARK Parameters, klik Edit SPARK Parameters untuk mengonfigurasi parameter SPARK global dan mengatur prioritasnya untuk setiap modul.
CatatanIni adalah pengaturan global untuk ruang kerja. Sebelum mengonfigurasi parameter, pastikan Anda telah memilih ruang kerja yang benar.
Parameter
Instruksi
Spark Properties
Konfigurasikan properti Spark yang akan digunakan saat menjalankan tugas Serverless Spark.
Klik Add di bawah, masukkan Spark Property Name dan Spark Property Value yang sesuai untuk mengatur properti Spark.
Untuk informasi tentang properti Spark yang didukung, lihat Spark Configuration dan Daftar parameter Spark Conf kustom.
Global Configuration Priority
Jika Anda memilih opsi ini, konfigurasi global akan mengambil prioritas daripada konfigurasi dalam modul produk. Tugas dijalankan berdasarkan properti SPARK global.
Konfigurasi Global: Ini adalah properti Spark yang dikonfigurasi di untuk sumber daya komputasi Serverless Spark yang sesuai di halaman SPARK Parameters.
Saat ini, Anda hanya dapat mengatur parameter SPARK global untuk modul Pengembangan Data (DataStudio) dan Pusat Operasi.
Konfigurasi dalam modul produk:
Pengembangan Data (DataStudio): Untuk node EMR Spark, EMR Spark SQL, Serverless Spark Batch, Serverless Spark SQL, dan Serverless Kyuubi, Anda dapat mengatur properti SPARK untuk tugas node tunggal di bagian Spark Parameters pada tab Debug Configuration atau Scheduling Configuration di halaman pengeditan node.
Modul produk lain: Pengaturan properti SPARK dalam modul ini tidak didukung.
Klik Confirm untuk menyimpan parameter SPARK global.
Konfigurasi pemetaan akun kluster
Anda dapat mengonfigurasi secara manual pemetaan antara akun Alibaba Cloud anggota penyewa DataWorks dan akun identitas tertentu kluster EMR. Hal ini memungkinkan anggota penyewa DataWorks menjalankan tugas di EMR Serverless Spark menggunakan identitas kluster yang dipetakan.
Fitur ini hanya tersedia untuk kelompok sumber daya Serverless. Jika Anda membeli kelompok sumber daya Serverless sebelum 15 Agustus 2025 dan ingin menggunakan fitur ini, Anda harus mengajukan tiket untuk meningkatkan kelompok sumber daya.
Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.
Klik Account Mapping untuk membuka panel konfigurasi Account Mapping.
Klik Edit Account Mapping dan konfigurasikan parameter berdasarkan Mapping Type yang dipilih.
Akun Mapping Type
Deskripsi eksekusi tugas
Deskripsi konfigurasi
Pemetaan akun sistem
Menggunakan akun kluster yang memiliki nama sama dengan Default Access Identity dalam informasi dasar sumber daya komputasi untuk menjalankan tugas node EMR Spark, EMR Spark SQL, EMR Kyuubi, dan Notebook.
Secara default, pemetaan nama yang sama digunakan. Untuk menggunakan pemetaan akun yang berbeda, Anda dapat mengonfigurasi akun yang berbeda secara manual.
Pemetaan akun OpenLDAP
Menggunakan Default Access Identity dalam informasi dasar sumber daya komputasi untuk menjalankan tugas EMR Spark dan EMR Spark SQL.
Menggunakan akun OpenLDAP yang dipetakan ke identitas akses default dalam informasi dasar sumber daya komputasi untuk menjalankan tugas node EMR Kyuubi dan Notebook.
Jika Anda telah mengonfigurasi dan mengaktifkan autentikasi LDAP untuk Kyuubi Gateway, Anda harus mengonfigurasi pemetaan antara Alibaba Cloud Account dan akun OpenLDAP (LDAP Account dan LDAP Password) untuk menjalankan tugas.
PentingJika akun Alibaba Cloud yang diperlukan untuk menjalankan tugas DataWorks tidak ada dalam daftar pemetaan akun, tugas mungkin gagal dijalankan.
Klik Confirm untuk menyelesaikan konfigurasi pemetaan akun kluster.
Konfigurasi koneksi Kyuubi
Untuk menjalankan tugas yang terkait dengan node EMR Kyuubi pada sumber daya komputasi EMR Serverless Spark, Anda harus mengonfigurasi koneksi Kyuubi sebagai berikut.
Fitur ini hanya tersedia untuk kelompok sumber daya Serverless. Jika Anda membeli kelompok sumber daya Serverless sebelum 15 Agustus 2025, dan ingin menggunakan fitur ini, Anda harus mengajukan tiket untuk meningkatkan kelompok sumber daya.
Prasyarat: Anda telah membuat Kyuubi Gateway dan token untuk kluster EMR Serverless Spark.
Prosedur:
Buka halaman sumber daya komputasi dan temukan sumber daya komputasi Serverless Spark yang telah Anda sambungkan.
Klik Kyuubi Configuration untuk membuka panel Kyuubi Configuration.
Di pojok kanan atas halaman Kyuubi Configuration, klik Edit Kyuubi Configuration untuk mengonfigurasi koneksi Kyuubi kluster.
Dapatkan token yang telah Anda buat. Untuk informasi lebih lanjut, lihat Mengelola Kyuubi Gateway.
Tambahkan token ke akhir parameter JDBC URL:
.../;transportMode=http;httpPath=cliservice/token/.Jika informasi
.../;transportMode=http;httpPath=cliservice/token/tidak ada, ikuti petunjuk di layar untuk membuat Kyuubi Gateway.Klik Confirm untuk menyelesaikan konfigurasi.
Langkah selanjutnya
Setelah Anda mengonfigurasi sumber daya komputasi Serverless Spark, Anda dapat menggunakannya untuk mengembangkan tugas node di Pengembangan Data. Untuk informasi lebih lanjut, lihat Node EMR Spark, Node EMR Spark SQL, Node Serverless Spark Batch, Node Serverless Spark SQL, dan Node Serverless Kyuubi.