全部产品
Search
文档中心

DataWorks:DataStudio: Menyambungkan sumber daya komputasi EMR

更新时间:Nov 19, 2025

Untuk mengembangkan dan mengelola tugas E-MapReduce (EMR) di DataWorks, Anda harus terlebih dahulu menyambungkan kluster EMR ke ruang kerja DataWorks sebagai sumber daya komputasi. Setelah tersambung, sumber daya komputasi ini dapat digunakan untuk berbagai operasi di DataWorks, seperti sinkronisasi data dan pengembangan.

Prasyarat

Batasan

  • Batasan produk:

    • Untuk kluster EMR yang mengaktifkan otentikasi Kerberos, tambahkan aturan masuk ke grup keamanannya yang mengizinkan akses dari blok CIDR vSwitch milik kelompok sumber daya yang tersambung melalui protokol UDP.

      Catatan

      Klik ikon image di samping Cluster Security Group pada bagian Basic Information kluster EMR untuk membuka tab Security Group Details. Pada tab Access Rules, klik Inbound, lalu klik Manually Add. Untuk Protocol Type, pilih Custom UDP. Untuk Port Range, masukkan port KDC yang ditentukan dalam file /etc/krb5.conf kluster EMR. Tetapkan Authorization Object ke blok CIDR vSwitch yang terkait dengan kelompok sumber daya.

    • Untuk mengelola metadata kluster DataLake atau kustom di DataWorks, konfigurasikan EMR-HOOK pada kluster atau saat Anda menyetel parameter SPARK. Jika EMR-HOOK tidak dikonfigurasi, metadata real-time, log audit, dan alur data tidak akan ditampilkan di DataWorks, serta tugas governance EMR tidak dapat dijalankan. Saat ini, hanya layanan EMR Hive dan EMR Spark SQL yang mendukung konfigurasi EMR-HOOK. Untuk informasi lebih lanjut, lihat Configure EMR-HOOK for Hive dan Configure EMR-HOOK for Spark SQL.

      Catatan
  • Ketersediaan wilayah: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).

  • Izin:

    Operator

    Izin yang diperlukan

    Akun Alibaba Cloud

    Tidak diperlukan izin tambahan.

    Pengguna RAM/Peral RAM Akun Alibaba Cloud

    Hanya anggota ruang kerja dengan peran O&M dan administrator ruang atau izin AliyunDataWorksFullAccess yang dapat membuat sumber daya komputasi. Untuk informasi selengkapnya, lihat Grant space administrator permissions to a user.

Perhatian

  • DataWorks mendukung versi-versi berikut dari kluster EMR Hadoop (data lake lama):

    EMR-3.38.2, EMR-3.38.3, EMR-4.9.0, EMR-5.6.0, EMR-3.26.3, EMR-3.27.2, EMR-3.29.0, EMR-3.32.0, EMR-3.35.0, EMR-4.3.0, EMR-4.4.1, EMR-4.5.0, EMR-4.5.1, EMR-4.6.0, EMR-4.8.0, EMR-5.2.1, dan EMR-5.4.3.

  • Kluster Hadoop (data lake lama) sudah tidak digunakan lagi. Kami menyarankan agar Anda segera melakukan migrasi ke kluster DataLake. Untuk informasi selengkapnya, lihat Migrate Hadoop clusters to DataLake clusters.

Buka halaman daftar sumber daya komputasi

  1. Masuk ke konsol DataWorks. Beralihlah ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih More > Management Center. Dari daftar drop-down, pilih ruang kerja Anda dan klik Go To Management Center.

  2. Di panel navigasi sebelah kiri, klik Computing Resources.

Menyambungkan sumber daya komputasi EMR

Di halaman Compute Resources, lakukan langkah-langkah berikut untuk menyambungkan sumber daya komputasi EMR.

  1. Pilih jenis sumber daya komputasi.

    1. Klik Attach Compute Resource untuk menuju ke halaman Attach Compute Resource.

    2. Di halaman Attach Compute Resource, tetapkan jenis sumber daya komputasi menjadi EMR. Anda kemudian akan diarahkan ke halaman konfigurasi Attach EMR Compute Resource.

  2. Konfigurasikan sumber daya komputasi EMR.

    Di halaman Attach EMR Compute Resource, konfigurasikan parameter sesuai dengan tabel berikut.

    Parameter

    Deskripsi

    Alibaba Cloud Account Of The Cluster

    Anda dapat memilih This Alibaba Cloud Account atau Other Alibaba Cloud Account.

    Catatan

    Saat Anda memilih Other Alibaba Cloud Account, Anda dapat mengikuti petunjuk di Scenario: Register a cross-account EMR cluster untuk memberikan izin yang diperlukan. Kemudian, masukkan parameter sesuai petunjuk pada antarmuka.

    Cluster Type

    Pilih jenis kluster sesuai kebutuhan.

    Cluster

    Pilih kluster EMR yang ingin Anda gunakan.

    Default Access Identity

    • Lingkungan pengembangan: Anda dapat menggunakan akun kluster hadoop atau akun kluster yang dipetakan ke pelaksana tugas.

    • Lingkungan produksi: Anda dapat menggunakan akun kluster hadoop atau akun kluster yang dipetakan ke pemilik tugas, akun Alibaba Cloud, atau Pengguna RAM.

      Catatan

      Saat Anda memilih akun kluster yang dipetakan ke pemilik tugas, akun Alibaba Cloud, atau Pengguna RAM sebagai identitas akses default, Anda dapat merujuk ke Set cluster identity mapping untuk mengonfigurasi secara manual pemetaan antara anggota penyewa DataWorks dan akun kluster EMR tertentu. Jika Anda menjalankan tugas EMR di DataWorks tanpa mengonfigurasi pemetaan ini, DataWorks akan menangani situasi tersebut sebagai berikut:

      • Jika Pengguna RAM menjalankan tugas: Tugas dijalankan secara default oleh akun sistem kluster EMR yang memiliki nama sama dengan operator saat ini. Jika kluster mengaktifkan otentikasi LDAP atau Kerberos, tugas gagal.

      • Jika akun Alibaba Cloud menjalankan tugas: Eksekusi tugas DataWorks gagal.

    Pass Proxy User Information

    Menentukan apakah informasi pengguna proxy akan dilewatkan.

    Catatan

    Saat metode autentikasi seperti LDAP atau Kerberos diaktifkan, kluster menerbitkan kredensial kepada setiap pengguna biasa. Untuk menyederhanakan pengelolaan izin, Anda dapat meminta superuser (pengguna asli) untuk mewakili pengguna biasa (pengguna proxy) dalam proses autentikasi. Saat pengguna proxy mengakses kluster, identitas superuser digunakan untuk autentikasi. Anda hanya perlu menambahkan pengguna tersebut sebagai pengguna proxy.

    • Pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikendalikan berdasarkan pengguna proxy.

      • DataStudio dan DataAnalysis: Nama akun Alibaba Cloud dari pelaksana tugas dilewatkan secara dinamis sebagai informasi pengguna proxy.

      • Operation Center: Nama akun Alibaba Cloud dari identitas akses default yang dikonfigurasi saat pendaftaran kluster dilewatkan sebagai informasi pengguna proxy.

    • Do not pass: Saat tugas dijalankan di kluster EMR, izin akses data diverifikasi dan dikendalikan berdasarkan metode verifikasi identitas yang dikonfigurasi saat pendaftaran kluster.

    Informasi pengguna proxy dilewatkan secara berbeda untuk berbagai jenis tugas EMR:

    • Tugas EMR Kyuubi: Dilewatkan melalui item konfigurasi hive.server2.proxy.user.

    • Tugas EMR Spark dan tugas EMR Spark SQL non-Java Database Connectivity (JDBC): Dilewatkan melalui item konfigurasi -proxy-user.

    Configuration File

    Saat Anda memilih HADOOP sebagai jenis kluster, Anda dapat membuka konsol EMR untuk mendapatkan file konfigurasi. Untuk informasi selengkapnya, lihat Export and import service configurations. Setelah Anda mengekspor file konfigurasi layanan, ubah nama file tersebut sesuai persyaratan unggah file GUI.

    Anda juga dapat masuk ke kluster EMR untuk mendapatkan file konfigurasi terkait dari jalur-jalur berikut.

    /etc/ecm/hadoop-conf/core-site.xml
    /etc/ecm/hadoop-conf/hdfs-site.xml
    /etc/ecm/hadoop-conf/mapred-site.xml
    /etc/ecm/hadoop-conf/yarn-site.xml
    /etc/ecm/hive-conf/hive-site.xml
    /etc/ecm/spark-conf/spark-defaults.conf
    /etc/ecm/spark-conf/spark-env.sh

    Compute Resource Instance Name

    Nama kustom untuk instans sumber daya komputasi. Anda dapat memilih sumber daya komputasi untuk menjalankan tugas berdasarkan nama ini.

  3. Klik Confirm untuk menyelesaikan konfigurasi.

Inisialisasi kelompok sumber daya

Anda harus menginisialisasi kelompok sumber daya saat mendaftarkan kluster untuk pertama kalinya, mengubah konfigurasi layanan kluster, atau meningkatkan versi komponen, misalnya dengan memodifikasi file core-site.xml. Hal ini memastikan bahwa kelompok sumber daya dapat terhubung ke kluster EMR setelah Anda mengonfigurasi konektivitas jaringan.

  1. Di halaman Compute Resources, temukan sumber daya komputasi EMR yang telah Anda sambungkan dan klik Initialize Resource Group di pojok kanan atas.

  2. Temukan kelompok sumber daya yang ingin Anda inisialisasi dan klik Initialize. Setelah kelompok sumber daya diinisialisasi, klik OK.

(Opsional) Konfigurasi antrian sumber daya YARN

Anda dapat membuka halaman Computing Resources untuk menemukan kluster EMR yang telah Anda sambungkan. Di tab YARN Resource Queue, klik Edit YARN Resource Queue untuk menyetel antrian sumber daya YARN global untuk tugas-tugas di berbagai modul.

(Opsional) Menyetel parameter SPARK

Menyetel parameter properti SPARK tertentu untuk tugas-tugas di berbagai modul.

  1. Di halaman Compute Resources, temukan kluster EMR yang telah Anda sambungkan.

  2. Di tab SPARK Parameters, klik Edit SPARK Parameters untuk menuju ke halaman pengeditan parameter SPARK kluster EMR.

  3. Dengan mengklik tombol Add di bawah suatu modul dan memasukkan Spark Property Name beserta Spark Property Value yang sesuai, Anda dapat menyetel parameter Spark global untuk tugas tersebut.

Langkah selanjutnya

  • Configure Kyuubi connection information: Untuk menggunakan akun dan kata sandi kustom saat masuk ke Kyuubi dan menjalankan tugas terkait, lihat dokumen ini untuk petunjuk cara menyesuaikan informasi koneksi Kyuubi.

  • Setelah mengonfigurasi sumber daya komputasi EMR, Anda dapat melakukan pengembangan data di Data Development menggunakan node-node terkait EMR.