全部产品
Search
文档中心

DataWorks:Skenario: Mendaftarkan kluster EMR lintas akun

更新时间:Oct 28, 2025

Anda dapat mengaitkan kluster EMR yang dimiliki oleh akun Alibaba Cloud lainnya. Operasi ini harus dilakukan menggunakan Peran RAM. Topik ini menjelaskan cara menggunakan Peran RAM untuk mengizinkan Akun Alibaba Cloud A mengaitkan kluster EMR milik Akun Alibaba Cloud B di DataWorks, sehingga memungkinkan akses lintas akun ke data EMR.

Prasyarat

  • Akun Alibaba Cloud A dan Akun Alibaba Cloud B telah dibuat. Untuk informasi tentang cara membuat akun Alibaba Cloud, lihat Buat Akun Alibaba Cloud.

    • Akun Alibaba Cloud A: Mengaitkan kluster EMR dari akun B di DataWorks.

    • Akun Alibaba Cloud B: Menyediakan kluster EMR.

  • Kluster EMR dibuat menggunakan Akun Alibaba Cloud B. Untuk informasi tentang cara membuat kluster EMR, lihat Buat Kluster.

Peringatan

  • Hanya kluster EMR Hadoop yang parameter Metadata-nya tidak disetel ke DLF Unified Metadata yang dapat digunakan.

  • Otentikasi Kerberos tidak didukung.

  • Spark mendukung lineage tabel node SQL dan tidak mendukung lineage bidang node SQL.

Akun Alibaba Cloud B: Buat peran RAM dan otorisasi Akun Alibaba Cloud A untuk mengasumsikan peran RAM

Akun Alibaba Cloud B diberi peran RAM yang memiliki izin untuk mengakses sumber daya EMR. Akun Alibaba Cloud B memberi otorisasi kepada Akun Alibaba Cloud A untuk mengasumsikan peran ini guna mengakses sumber daya EMR.

  1. Buat peran RAM.

    Masuk ke Konsol RAM menggunakan Akun Alibaba Cloud B. Buat peran RAM dan tambahkan Akun Alibaba Cloud A sebagai akun tepercaya untuk peran tersebut. Kemudian, Akun Alibaba Cloud A dapat mengasumsikan peran tersebut untuk mengakses sumber daya yang diizinkan. Untuk informasi tentang cara membuat peran RAM, lihat Buat Peran RAM untuk Akun Tepercaya.

    image.png

    Contoh konfigurasi utama peran RAM:

    • Setel parameter Nama Peran RAM ke EMRRole.

    • Setel parameter Pilih Akun Tepercaya ke Akun Alibaba Cloud Lainnya, dan masukkan ID Akun Alibaba Cloud A di bidang yang muncul. Anda dapat masuk ke Konsol RAM menggunakan Akun Alibaba Cloud A, dan arahkan kursor ke foto profil di bilah navigasi atas untuk mendapatkan ID Akun Alibaba Cloud A.

    Setelah konfigurasi selesai, Akun Alibaba Cloud A dapat mengasumsikan peran EMRRole dan mengakses sumber daya yang diizinkan.

  2. Ubah kebijakan kepercayaan peran EMRRole.

    Pergi ke halaman detail peran EMRRole dan ubah kebijakan kepercayaannya untuk memberi otorisasi Akun Alibaba Cloud A mengakses kluster EMR yang dimiliki oleh Akun Alibaba Cloud B. Untuk informasi tentang cara mengubah kebijakan kepercayaan peran RAM, lihat Edit Kebijakan Kepercayaan Peran RAM. Kode berikut menunjukkan dokumen kebijakan kepercayaan:

    {
      "Statement": [
        {
          "Action": "sts:AssumeRole",
          "Effect": "Allow",
          "Principal": {
            "Service": [
              "san******@emr.dataworks.aliyuncs.com"
            ]
          }
        }
      ],
      "Version": "1"
    }
    Catatan

    san******@emr.dataworks.aliyuncs.com: menunjukkan ID Akun Alibaba Cloud A.

  3. Lampirkan kebijakan AliyunDataWorksAccessingEMRReadOnlyPolicy ke peran EMRRole.

    image.png

Akun Alibaba Cloud A: Daftarkan kluster EMR yang dimiliki oleh Akun Alibaba Cloud B

Catatan

Pada langkah ini, Anda akan mengaitkan kluster EMR akun B dengan ruang kerja DataWorks di bawah akun A, memungkinkan pengaitan kluster lintas akun. Oleh karena itu, sebelum melakukan langkah ini, peroleh UID dari akun B terlebih dahulu.

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.

  2. Di panel navigasi kiri halaman SettingCenter, klik Computing Resources.

  3. Konfigurasikan informasi tentang kluster EMR.

    1. Konfigurasikan informasi dasar tentang kluster EMR.

      Konfigurasikan informasi berikut sesuai petunjuk di halaman. Untuk ruang kerja mode standar, asosiasikan sumber daya komputasi secara terpisah untuk lingkungan pengembangan dan produksi. Untuk detail tentang mode ruang kerja, lihat Perbedaan antara Mode Ruang Kerja.

      image

      Deskripsi konfigurasi parameter utama:

      • Setel parameter UID Akun Utama Alibaba Cloud ke ID akun Alibaba Cloud tempat kluster EMR berada. Dalam contoh ini, setel parameter ke ID Akun Alibaba Cloud B.

      • Setel parameter Peran RAM Berlawanan ke peran RAM yang dapat diasumsikan oleh Akun Alibaba Cloud A untuk mengakses sumber daya EMR Akun Alibaba Cloud B. Dalam contoh ini, setel parameter ke EMRRole.

      • Setel parameter Kluster EMR Peer ke kluster EMR yang akan dikaitkan dengan DataWorks. Dalam contoh ini, Anda hanya dapat memilih kluster EMR Hadoop V3.38.3 atau V3.38.2 yang parameter Metadata-nya tidak disetel ke DLF Unified Metadata.

      Untuk lebih banyak detail konfigurasi tentang pengaitan kluster, lihat Data Studio: Ikat Sumber Daya Komputasi EMR.

    2. Inisialisasi kelompok sumber daya yang ingin Anda gunakan.

      Jika ini adalah pertama kalinya Anda mengaitkan sumber daya komputasi EMR, atau jika konfigurasi layanan kluster telah berubah, atau versi komponen telah ditingkatkan (misalnya, modifikasi pada core-site.xml), inisialisasi kelompok sumber daya. Ini memastikan koneksi jaringan dikonfigurasi dengan benar dan bahwa kelompok sumber daya dapat mengakses kluster EMR seperti yang diharapkan.

      Catatan
      • DataWorks memungkinkan Anda menggunakan kelompok sumber daya tanpa server (disarankan) atau kelompok sumber daya eksklusif versi lama untuk penjadwalan untuk menjalankan tugas EMR. Oleh karena itu, Anda dapat memilih kelompok sumber daya tanpa server atau kelompok sumber daya eksklusif untuk penjadwalan ketika Anda perlu menginisialisasi kelompok sumber daya.

      • Inisialisasi kelompok sumber daya dapat menyebabkan kegagalan tugas yang sedang berjalan. Oleh karena itu, kami sarankan Anda menginisialisasi kelompok sumber daya selama jam-jam sepi kecuali diperlukan lain. Misalnya, jika konfigurasi kluster diubah, Anda harus segera menginisialisasi ulang kelompok sumber daya tertentu. Jika tidak, sejumlah besar tugas mungkin gagal dijalankan.

Apa yang harus dilakukan selanjutnya

Setelah Anda mendaftarkan kluster EMR, Anda dapat melakukan operasi berikut:

  • Konfigurasikan pemetaan antara akun anggota penyewa dan akun kluster EMR. Jika identitas default yang digunakan untuk mengakses kluster EMR adalah akun non-Hadoop, Anda harus mengonfigurasi pemetaan antara akun anggota penyewa dan akun kluster EMR. Dengan cara ini, Pengguna RAM yang Anda gunakan di DataWorks hanya dapat mengakses sumber daya yang memiliki izin bagi Pengguna RAM tersebut.

  • Konfigurasikan node sinkronisasi data di Data Integration untuk menyinkronkan data berdasarkan kluster EMR. Untuk informasi lebih lanjut, lihat Ikhtisar Data Integration.

  • Pergi ke Pusat Operasi dan Peta Data untuk melihat lebih banyak informasi tentang kluster. Untuk informasi lebih lanjut, lihat Ikhtisar Pusat Operasi dan Ikhtisar Peta Data.