全部产品
Search
文档中心

DataWorks:DataStudio (versi lama): Mengaitkan sumber daya komputasi EMR

更新时间:Nov 19, 2025

DataWorks memungkinkan Anda membuat node seperti Hive, MapReduce (MR), Presto, dan Spark SQL berdasarkan kluster E-MapReduce (EMR), sehingga Anda dapat mengonfigurasi alur kerja tugas EMR, menjadwalkannya secara berkala, serta mengelola metadatanya. Topik ini menjelaskan cara mendaftarkan kluster EMR yang dimiliki oleh Akun Alibaba Cloud yang sama atau berbeda.

Informasi latar belakang

E-MapReduce (EMR) adalah solusi pemrosesan data besar yang berjalan di platform Alibaba Cloud.

EMR dibangun di atas Apache Hadoop dan Apache Spark open source, memungkinkan Anda menggunakan sistem lain dalam ekosistem Hadoop dan Spark untuk menganalisis serta memproses data. EMR juga dapat bertukar data dengan layanan penyimpanan dan database Alibaba Cloud lainnya, seperti Object Storage Service (OSS) dan Relational Database Service (RDS). Alibaba Cloud EMR menyediakan berbagai mode penyebaran untuk memenuhi kebutuhan pengguna yang beragam, termasuk penyebaran di ECS, ACK, dan Serverless.

Anda dapat memilih berbagai komponen EMR untuk menjalankan tugas EMR di DataWorks. Konfigurasi optimal bervariasi tergantung pada komponennya. Saat mengonfigurasi kluster EMR, lihat Rekomendasi konfigurasi kluster EMR untuk memilih konfigurasi yang sesuai.

Jenis kluster yang didukung

Anda harus membuat kluster EMR dan mendaftarkannya ke DataWorks sebelum dapat menggunakannya untuk menjalankan tugas. DataWorks mendukung pendaftaran jenis kluster berikut: Kluster DataLake (data lake baru): EMR on ECS, Kluster kustom: EMR on ECS, Kluster Hadoop (data lake lama): EMR on ECS, Kluster Spark: EMR on ACK, dan kluster EMR Serverless Spark.

Penting
  • Anda dapat menggunakan kluster EMR Hadoop (data lake lama) dengan versi berikut di DataWorks:

    EMR-3.38.2, EMR-3.38.3, EMR-4.9.0, EMR-5.6.0, EMR-3.26.3, EMR-3.27.2, EMR-3.29.0, EMR-3.32.0, EMR-3.35.0, EMR-4.3.0, EMR-4.4.1, EMR-4.5.0, EMR-4.5.1, EMR-4.6.0, EMR-4.8.0, EMR-5.2.1, EMR-5.4.3

  • Kluster Hadoop (data lake lama) tidak lagi direkomendasikan. Segera migrasikan ke kluster DataLake. Untuk informasi selengkapnya, lihat Migrasikan kluster Hadoop ke kluster DataLake.

Catatan

Jika jenis kluster yang Anda gunakan tidak dapat didaftarkan di DataWorks, kirim tiket untuk menghubungi dukungan teknis.

Batasan

  • Batasan izin: Hanya Pengguna RAM atau Peran RAM berikut yang dapat mendaftarkan kluster EMR. Untuk informasi selengkapnya, lihat Memberikan izin kepada Pengguna RAM.

    • Akun Alibaba Cloud.

    • Pengguna RAM atau Peran RAM yang memiliki peran Administrator Ruang Kerja DataWorks dan kebijakan AliyunEMRFullAccess.

    • Pengguna RAM atau Peran RAM yang memiliki kebijakan AliyunDataWorksFullAccess dan AliyunEMRFullAccess.

  • Batasan wilayah: EMR Serverless Spark hanya tersedia di Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Virginia).

  • Jenis tugas: DataWorks tidak mendukung menjalankan tugas EMR Flink.

  • Eksekusi tugas: DataWorks mendukung menjalankan tugas EMR menggunakan kelompok sumber daya arsitektur tanpa server (direkomendasikan) atau kelompok sumber daya eksklusif untuk penjadwalan (versi lama).

  • Tata kelola tugas:

    • Hanya tugas SQL pada node EMR Hive, EMR Spark, dan EMR Spark SQL yang mendukung pembuatan alur data. Jika versi kluster adalah 5.9.1, 3.43.1, atau lebih baru, semua node ini mendukung melihat alur data tingkat tabel dan tingkat bidang.

      Catatan

      Untuk node tipe Spark, jika versi kluster EMR adalah 5.8.0, 3.42.0, atau lebih baru, node tersebut mendukung melihat alur data tingkat tabel dan tingkat bidang. Jika versi kluster EMR lebih lama dari 5.8.0 atau 3.42.0, hanya Spark 2.x yang mendukung melihat alur data tingkat tabel.

    • Untuk mengelola metadata kluster DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Jika EMR-HOOK tidak dikonfigurasi, metadata tidak dapat ditampilkan secara real time, log audit tidak dapat dihasilkan, dan alur data tidak dapat ditampilkan di DataWorks. Dalam kasus ini, tugas tata kelola terkait EMR tidak dapat dilakukan. Saat ini, EMR-HOOK hanya dapat dikonfigurasi untuk layanan EMR Hive dan EMR Spark SQL. Untuk informasi selengkapnya, lihat Konfigurasi EMR-HOOK untuk Hive dan Konfigurasi E-HOOK untuk Spark SQL.

  • Untuk kluster EMR yang mengaktifkan otentikasi Kerberos, Anda harus menambahkan aturan masuk ke grup keamanan untuk mengizinkan akses pada port UDP dari blok CIDR vSwitch yang disambungkan ke kelompok sumber daya.

    Catatan

    Pada tab Basic Information kluster EMR, klik ikon image untuk Cluster Security Group guna membuka tab Security Group Details. Pada tab Security Group Details, klik Inbound di bagian Access Rule dan pilih Manually Add. Atur Protocol Type menjadi Custom UDP. Untuk Port Range, periksa file /etc/krb5.conf di kluster EMR untuk mengetahui port KDC yang sesuai. Atur Authorization Object ke blok CIDR vSwitch yang disambungkan ke kelompok sumber daya.

Perhatian

  • Untuk mengisolasi lingkungan pengembangan dan produksi di ruang kerja mode standar, Anda harus mendaftarkan dua kluster EMR yang berbeda. Metadata untuk kedua kluster ini harus disimpan menggunakan salah satu metode berikut:

    • Metode 1 (direkomendasikan untuk solusi data lake): Simpan metadata di dua katalog data berbeda di Data Lake Formation (DLF). Untuk informasi selengkapnya, lihat Ganti tipe metastore.

    • Metode 2: Simpan metadata di dua database berbeda di Relational Database Service (RDS). Untuk informasi selengkapnya, lihat Konfigurasi database RDS yang dikelola sendiri.

  • Kluster EMR dapat didaftarkan ke beberapa ruang kerja dalam Akun Alibaba Cloud yang sama tetapi tidak dapat didaftarkan ke ruang kerja yang dimiliki oleh Akun Alibaba Cloud yang berbeda.

  • Untuk memastikan bahwa kelompok sumber daya DataWorks dapat mengakses kluster EMR, periksa aturan grup keamanan kluster EMR jika koneksi gagal. Hal ini dapat terjadi bahkan jika kelompok sumber daya dan kluster berada dalam virtual private cloud (VPC) yang sama dan menggunakan vSwitch yang sama. Tambahkan aturan masuk untuk blok CIDR vSwitch yang sesuai dan port komponen open source umum. Untuk informasi selengkapnya, lihat Kelola grup keamanan kluster EMR.

Langkah 1: Buka halaman kluster EMR

  1. Buka halaman SettingCenter.

    Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.

  2. Di panel navigasi kiri, klik Cluster Management. Pada halaman Cluster Management, klik Register Cluster. Pilih E-MapReduce untuk Cluster Type To Register. Halaman Register E-MapReduce Cluster akan muncul.

Langkah 2: Daftarkan kluster EMR

Pada halaman Register E-MapReduce Cluster, konfigurasikan informasi kluster.

Catatan

Untuk ruang kerja mode standar, Anda harus mengonfigurasi informasi kluster untuk lingkungan pengembangan dan produksi secara terpisah. Untuk informasi selengkapnya tentang mode ruang kerja, lihat Perbedaan antara mode ruang kerja.

  • Nama Tampilan Kluster: Nama tampilan kluster di DataWorks. Nama harus unik.

  • Akun Alibaba Cloud Pemilik Kluster: Pilih akun yang memiliki kluster EMR yang ingin Anda daftarkan ke ruang kerja saat ini.

    Catatan

    Anda tidak dapat mendaftarkan kluster EMR Serverless Spark lintas Akun Alibaba Cloud.

Konfigurasikan parameter berdasarkan jenis akun yang dipilih.

Akun Alibaba Cloud Pemilik Kluster: Akun Alibaba Cloud Saat Ini

Jika Anda memilih Current Alibaba Cloud Account untuk Akun Alibaba Cloud Pemilik Kluster, konfigurasikan parameter berikut:

Parameter

Deskripsi

Cluster Type

Pilih jenis kluster EMR yang akan didaftarkan. Untuk jenis kluster yang dapat didaftarkan di DataWorks, lihat Batasan.

Cluster

Pilih kluster EMR di bawah akun saat ini untuk didaftarkan ke DataWorks.

Catatan

Jika Anda memilih EMR Serverless Spark sebagai jenis kluster, ikuti petunjuk pada UI untuk memilih E-MapReduce Workspace (kluster yang akan didaftarkan), versi mesin default, antrian sumber daya default, dan informasi lainnya.

Default Access Identity

Menentukan identitas yang digunakan untuk mengakses kluster EMR di ruang kerja saat ini.

  • Lingkungan pengembangan: Anda dapat menggunakan akun kluster hadoop atau akun kluster yang dipetakan ke pelaksana tugas.

  • Lingkungan produksi: Anda dapat menggunakan akun kluster hadoop, atau akun kluster yang dipetakan ke pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM.

Catatan

Jika Anda memilih opsi yang memetakan ke akun kluster, seperti pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM, Anda dapat mengonfigurasi pemetaan secara manual antara anggota penyewa DataWorks dan akun kluster EMR tertentu. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster. Akun kluster yang dipetakan digunakan untuk menjalankan tugas EMR di DataWorks. Jika tidak ada pemetaan yang dikonfigurasi, DataWorks menggunakan kebijakan berikut:

  • Jika Pengguna RAM (sub-akun) menjalankan tugas: DataWorks secara default menggunakan akun sistem kluster EMR dengan nama yang sama dengan operator saat ini. Jika kluster mengaktifkan otentikasi LDAP atau Kerberos, tugas akan gagal.

  • Jika Akun Alibaba Cloud menjalankan tugas: Tugas DataWorks akan melaporkan kesalahan.

Pass Proxy User Information

Menentukan apakah akan meneruskan informasi pengguna proxy.

Catatan

Saat metode autentikasi seperti LDAP atau Kerberos diaktifkan, kluster mengeluarkan kredensial autentikasi untuk setiap pengguna biasa. Untuk menyederhanakan pengelolaan izin, Anda dapat menggunakan superuser (pengguna asli) untuk mewakili pengguna biasa (pengguna proxy) dalam autentikasi izin. Dalam hal ini, saat mengakses kluster sebagai pengguna proxy, informasi autentikasi identitas superuser digunakan. Anda hanya perlu menambahkan pengguna sebagai pengguna proxy.

  • Teruskan: Saat Anda menjalankan tugas di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan pengguna proxy.

    • DataStudio (Pengembangan Data) dan Analisis Data: Nama Akun Alibaba Cloud dari pelaksana tugas diteruskan secara dinamis. Informasi pengguna proxy adalah informasi pelaksana tugas.

    • Pusat Operasi: Nama Akun Alibaba Cloud dari identitas akses default yang dikonfigurasi saat pendaftaran kluster diteruskan. Informasi pengguna proxy adalah informasi identitas akses default.

  • Jangan Teruskan: Saat Anda menjalankan tugas di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan metode autentikasi akun yang dikonfigurasi saat pendaftaran kluster.

Metode yang digunakan untuk meneruskan informasi pengguna proxy bervariasi berdasarkan jenis tugas EMR:

  • Tugas EMR Kyuubi: Informasi pengguna proxy diteruskan menggunakan item konfigurasi hive.server2.proxy.user.

  • Tugas EMR Spark dan tugas EMR Spark SQL non-mode JDBC: Informasi pengguna proxy diteruskan menggunakan item konfigurasi -proxy-user.

Configuration Files

Jika Anda memilih HADOOP sebagai jenis kluster, Anda dapat membuka Konsol EMR untuk mendapatkan file konfigurasi. Untuk informasi selengkapnya, lihat Ekspor dan impor konfigurasi layanan. Setelah mengekspor, ubah nama file sesuai dengan persyaratan unggah pada UI.

image.png

Anda juga dapat login ke kluster EMR dan buka jalur berikut untuk mendapatkan file konfigurasi terkait.

/etc/ecm/hadoop-conf/core-site.xml
/etc/ecm/hadoop-conf/hdfs-site.xml
/etc/ecm/hadoop-conf/mapred-site.xml
/etc/ecm/hadoop-conf/yarn-site.xml
/etc/ecm/hive-conf/hive-site.xml
/etc/ecm/spark-conf/spark-defaults.conf
/etc/ecm/spark-conf/spark-env.sh

Akun Alibaba Cloud Pemilik Kluster: Akun Alibaba Cloud Lain

Jika Anda memilih Another Alibaba Cloud Account untuk Akun Alibaba Cloud Pemilik Kluster, konfigurasikan parameter berikut:

Parameter

Deskripsi

Other Alibaba Cloud Account UID

UID Akun Alibaba Cloud yang memiliki kluster EMR.

Other RAM Role

Peran RAM yang digunakan untuk mengakses kluster EMR. Peran ini harus memenuhi kondisi berikut:

  • Peran RAM dibuat di Akun Alibaba Cloud lain.

  • Peran RAM di Akun Alibaba Cloud lain diberikan izin untuk mengakses layanan DataWorks di akun saat ini.

Catatan

Untuk informasi selengkapnya tentang mendaftarkan kluster EMR lintas akun, lihat Skenario: Mendaftarkan kluster EMR lintas akun.

Other EMR Cluster Type

Pilih jenis kluster EMR yang akan didaftarkan. Saat ini, hanya kluster DataLake EMR on ECS, kluster Hadoop EMR on ECS, dan kluster Kustom EMR on ECS yang didukung untuk pendaftaran lintas akun.

Other EMR Cluster

Pilih kluster EMR dari akun lain untuk didaftarkan ke DataWorks.

Configuration Files

Konfigurasikan file konfigurasi sesuai petunjuk pada UI. Untuk informasi selengkapnya tentang cara mendapatkan file konfigurasi, lihat Ekspor dan impor konfigurasi layanan. Setelah mengekspor, ubah nama file sesuai dengan persyaratan unggah pada UI.

image.png

Anda juga dapat login ke kluster EMR dan buka jalur berikut untuk mendapatkan file konfigurasi terkait.

/etc/ecm/hadoop-conf/core-site.xml
/etc/ecm/hadoop-conf/hdfs-site.xml
/etc/ecm/hadoop-conf/mapred-site.xml
/etc/ecm/hadoop-conf/yarn-site.xml
/etc/ecm/hive-conf/hive-site.xml
/etc/ecm/spark-conf/spark-defaults.conf
/etc/ecm/spark-conf/spark-env.sh

Default Access Identity

Menentukan identitas yang digunakan untuk mengakses kluster EMR di ruang kerja saat ini.

  • Lingkungan pengembangan: Anda dapat menggunakan akun kluster hadoop atau akun kluster yang dipetakan ke pemilik tugas.

  • Lingkungan produksi: Anda dapat menggunakan akun kluster hadoop, atau akun kluster yang dipetakan ke pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM.

Catatan

Jika Anda memilih opsi yang memetakan ke akun kluster, seperti pemilik tugas, Akun Alibaba Cloud, atau Pengguna RAM, Anda dapat mengonfigurasi pemetaan secara manual antara anggota penyewa DataWorks dan akun kluster EMR tertentu. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster. Akun kluster yang dipetakan digunakan untuk menjalankan tugas EMR di DataWorks. Jika tidak ada pemetaan yang dikonfigurasi, DataWorks menggunakan kebijakan berikut:

  • Jika Pengguna RAM (sub-akun) menjalankan tugas: DataWorks secara default menggunakan akun sistem kluster EMR dengan nama yang sama dengan operator saat ini. Jika kluster mengaktifkan otentikasi LDAP atau Kerberos, tugas akan gagal.

  • Jika Akun Alibaba Cloud menjalankan tugas: Tugas DataWorks akan melaporkan kesalahan.

Pass Proxy User Information

Menentukan apakah akan meneruskan informasi pengguna proxy.

Catatan

Saat metode autentikasi seperti LDAP atau Kerberos diaktifkan, kluster mengeluarkan kredensial autentikasi untuk setiap pengguna biasa. Untuk menyederhanakan pengelolaan izin, Anda dapat menggunakan superuser (pengguna asli) untuk mewakili pengguna biasa (pengguna proxy) dalam autentikasi izin. Dalam hal ini, saat mengakses kluster sebagai pengguna proxy, informasi autentikasi identitas superuser digunakan. Anda hanya perlu menambahkan pengguna sebagai pengguna proxy.

  • Teruskan: Saat Anda menjalankan tugas di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan pengguna proxy.

    • DataStudio (Pengembangan Data) dan Analisis Data: Nama Akun Alibaba Cloud dari pelaksana tugas diteruskan secara dinamis. Informasi pengguna proxy adalah informasi pelaksana tugas.

    • Pusat Operasi: Nama Akun Alibaba Cloud dari identitas akses default yang dikonfigurasi saat pendaftaran kluster diteruskan. Informasi pengguna proxy adalah informasi identitas akses default.

  • Jangan Teruskan: Saat Anda menjalankan tugas di kluster EMR, izin akses data diverifikasi dan dikontrol berdasarkan metode autentikasi akun yang dikonfigurasi saat pendaftaran kluster.

Metode yang digunakan untuk meneruskan informasi pengguna proxy bervariasi berdasarkan jenis tugas EMR:

  • Tugas EMR Kyuubi: Informasi pengguna proxy diteruskan menggunakan item konfigurasi hive.server2.proxy.user.

  • Tugas EMR Spark dan tugas EMR Spark SQL non-mode JDBC: Informasi pengguna proxy diteruskan menggunakan item konfigurasi -proxy-user.

Langkah 3: Inisialisasi kelompok sumber daya

Anda harus menginisialisasi kelompok sumber daya saat pertama kali mendaftarkan kluster, mengubah konfigurasi layanan kluster (misalnya, memodifikasi core-site.xml), atau meningkatkan versi komponen. Langkah ini memastikan bahwa kelompok sumber daya dapat mengakses EMR dan konfigurasi lingkungan saat ini dari kelompok sumber daya dapat menjalankan tugas EMR.

  1. Pada halaman Open Source Cluster, temukan tab kluster EMR yang telah didaftarkan dan klik Initialize Resource Group di pojok kanan atas.

  2. Temukan kelompok sumber daya yang diperlukan dan klik Inisialisasi.

    Anda dapat menginisialisasi kelompok sumber daya arsitektur tanpa server atau kelompok sumber daya eksklusif untuk penjadwalan (versi lama).
  3. Tunggu 1 hingga 2 menit hingga inisialisasi selesai, lalu klik OK.

Penting
  • Jika inisialisasi gagal, gunakan alat diagnosis konektivitas untuk membantu mengatasi penyebabnya.

  • Menginisialisasi kelompok sumber daya dapat menyebabkan tugas yang sedang berjalan gagal. Kecuali jika perlu menginisialisasi ulang kelompok sumber daya segera (misalnya, untuk mencegah banyak tugas gagal setelah konfigurasi kluster diubah), kami menyarankan agar Anda menginisialisasi kelompok sumber daya pada jam-jam non-sibuk.

Langkah selanjutnya

  • Pengembangan data: Rujuk ke Panduan proses pengembangan data untuk mengonfigurasi lingkungan komponen terkait.

  • Konfigurasi pemetaan identitas kluster: Jika identitas akses default untuk kluster EMR bukan akun hadoop, Anda harus mengonfigurasi pemetaan identitas kluster untuk mengontrol sumber daya yang dapat diakses oleh Pengguna RAM di DataWorks.

  • Atur antrian sumber daya YARN global: Gunakan pemetaan antrian sumber daya YARN untuk menentukan antrian YARN yang digunakan oleh setiap modul. Anda juga dapat menentukan apakah akan menimpa konfigurasi setiap modul.

  • Atur parameter Spark global: Rujuk ke dokumentasi resmi Spark untuk menyesuaikan parameter Spark global. Anda juga dapat menentukan apakah konfigurasi parameter Spark tingkat ruang kerja akan menimpa konfigurasi tingkat modul untuk parameter yang memiliki nama yang sama.

  • Atur informasi koneksi Kyuubi: Jika Anda ingin menggunakan akun dan kata sandi kustom untuk login ke Kyuubi dan menjalankan tugas, rujuk dokumen ini untuk menyesuaikan informasi koneksi Kyuubi.