全部产品
Search
文档中心

DataWorks:Node CDH MR

更新时间:Feb 05, 2026

Dalam pengembangan task DataWorks, Anda dapat membuat node CDH MR (MapReduce) untuk memproses dataset besar. Topik ini menjelaskan cara mengonfigurasi dan menggunakan node CDH MR di DataWorks.

Prasyarat

  • Anda telah membuat kluster Alibaba Cloud CDH dan mengaitkannya ke ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi CDH.

  • (Opsional) Jika Anda menggunakan pengguna RAM, tambahkan pengguna tersebut ke ruang kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang cara menambahkan anggota ke ruang kerja, lihat Menambahkan anggota ke ruang kerja.

    Catatan

    Jika Anda menggunakan akun root, langkah ini dapat dilewati.

  • Anda telah mengonfigurasi sumber data Hive di DataWorks dan lulus uji konektivitas. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.

Buat resource CDH JAR

Anda dapat mengunggah paket JAR ke DataWorks dan menggunakan node CDH MR untuk menjadwalkan eksekusinya secara berkala.

  1. Manajemen resource: unggah paket JAR dari mesin lokal Anda dengan mengeklik Click to Upload untuk menambahkan resource.

  2. Tentukan Storage Path, Data Source, dan Resource Group.

  3. Klik Save.

Buat node

Untuk petunjuknya, lihat Membuat node.

Kembangkan node

Di editor node CDH MR:

  1. Buka node CDH MR yang telah Anda buat. Editor kode akan terbuka.

  2. Di panel Resource Management di sebelah kiri, temukan resource yang ingin Anda referensikan. Klik kanan dan pilih Reference Resource.

  3. Setelah mereferensikan resource tersebut, DataWorks akan menambahkan pernyataan dalam format ##@resource_reference{""} ke editor kode. Anda kemudian dapat menjalankan perintah berikut untuk mengeksekusi pekerjaan tersebut. Paket resource, nama bucket, dan path dalam perintah ini hanyalah contoh.

##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs

Debug node

  1. Pada bagian Run Configuration Compute Resource, pilih Compute Resource dan Resource Group.

    1. Untuk Compute Resource, pilih kluster CDH yang telah Anda daftarkan di DataWorks.

    2. Untuk Resource Group, pilih kelompok sumber daya penjadwalan yang terhubung ke sumber data.Solusi konektivitas jaringan

  2. Pada bilah alat editor node, klik Run.

Langkah selanjutnya

  • Konfigurasi penjadwalan node: Untuk menjalankan node secara berkala, konfigurasikan Time Property dan properti penjadwalan terkait di panel Scheduling configuration pada sisi kanan halaman.

  • Publikasikan node: Untuk mempublikasikan node ke lingkungan produksi, klik ikon image. Hanya node yang telah dipublikasikan ke lingkungan produksi yang akan dijadwalkan.

  • Task O&M: Setelah mempublikasikan node, Anda dapat memantau eksekusi terjadwalnya di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.