全部产品
Search
文档中心

DataWorks:Buat node CDH MR

更新时间:Jul 06, 2025

Di DataWorks DataStudio, Anda dapat membuat node Cloudera's Distribution Including Apache Hadoop (CDH) MapReduce (MR) untuk memproses dataset ultra-besar. Topik ini menjelaskan cara membuat dan menggunakan node CDH MR di DataWorks.

Prasyarat

  • Sebuah alur kerja dibuat di DataStudio.

    Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.

  • Sebuah klaster CDH Alibaba Cloud dibuat dan didaftarkan ke DataWorks.

    Sebelum membuat node CDH dan menggunakannya untuk mengembangkan tugas CDH di DataWorks, Anda harus mendaftarkan klaster CDH ke ruang kerja DataWorks. Untuk informasi lebih lanjut, lihat Daftarkan klaster CDH atau CDP ke DataWorks.

  • (Diperlukan jika Anda menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Development atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat memberikan peran tersebut. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambah anggota ruang kerja dan tetapkan peran kepada mereka.

  • Grup sumber daya tanpa server dibeli dan dikonfigurasi. Konfigurasi mencakup asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan grup sumber daya tanpa server.

Batasan

Tugas pada jenis node ini dapat dijalankan pada grup sumber daya tanpa server atau grup sumber daya eksklusif versi lama untuk penjadwalan. Kami merekomendasikan agar Anda menjalankan tugas pada grup sumber daya tanpa server.

Langkah 1: Buat node CDH MR

  1. Pergi ke halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di halaman DataStudio, temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih Create Node > CDH > CDH MR.

  3. Di kotak dialog Create Node, konfigurasikan parameter Engine Instance, Path, dan Name.

  4. Klik Confirm. Selanjutnya, Anda dapat menggunakan node yang telah dibuat untuk mengembangkan dan mengonfigurasi tugas.

Langkah 2: Buat dan referensikan sumber daya CDH JAR

DataWorks memungkinkan Anda mengunggah sumber daya dari mesin lokal ke DataStudio sebelum merujuk sumber daya tersebut. Lakukan operasi berikut untuk membuat dan merujuk sumber daya CDH JAR:

  1. Buat sumber daya CDH JAR.

    Temukan alur kerja yang diinginkan dan klik CDH. Klik kanan Resource dan pilih Create Resource > CDH JAR. Di kotak dialog Create Resource, klik Upload untuk mengunggah file yang diperlukan.

    image.png

  2. Rujuk sumber daya CDH JAR.

    1. Pergi ke tab konfigurasi node CDH MR yang telah dibuat.

    2. Temukan sumber daya yang ingin dirujuk di bawah Resource di folder CDH, klik kanan nama sumber daya, dan pilih Insert Resource Path. Dalam contoh ini, sumber daya bernama onaliyun_mr_wordcount-1.0-SNAPSHOT.jar digunakan.

      image.png

      Jika klausa dalam format ##@resource_reference{""} muncul di tab konfigurasi node, sumber daya berhasil dirujuk. Kemudian, jalankan kode berikut. Ganti informasi seperti nama paket sumber daya, nama bucket, dan direktori dalam kode berikut dengan informasi aktual.

      ##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
      onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs
      Catatan

      Jangan tambahkan komentar saat menulis kode untuk node CDH MR.

Langkah 3: Konfigurasikan properti penjadwalan tugas

Jika Anda ingin sistem secara berkala menjalankan tugas pada node, klik Properties di panel navigasi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas sesuai kebutuhan bisnis Anda.

Langkah 4: Debug kode tugas

  1. Opsional. Pilih grup sumber daya dan tetapkan parameter kustom ke variabel.

  2. Simpan dan eksekusi pernyataan SQL.

    Di bilah alat atas, klik ikon 保存 untuk menyimpan pernyataan SQL. Lalu, klik ikon 运行 untuk mengeksekusi pernyataan SQL.

  3. Opsional. Lakukan pengujian asap.

    Anda dapat melakukan pengujian asap pada tugas di lingkungan pengembangan saat Anda mengirimkan tugas atau setelah Anda mengirimkan tugas. Untuk informasi lebih lanjut, lihat Lakukan pengujian asap.

Apa yang harus dilakukan selanjutnya

  1. Kirim dan terapkan tugas.

    1. Klik ikon 保存 di bilah alat atas untuk menyimpan tugas.

    2. Klik ikon 提交 di bilah alat atas untuk mengirimkan tugas.

    3. Di kotak dialog Submit, konfigurasikan parameter Change description.

    4. Klik Confirm.

    Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas di lingkungan produksi setelah Anda mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di bilah navigasi atas halaman DataStudio. Untuk informasi lebih lanjut, lihat Terapkan tugas.

  2. Lihat tugas.

    1. Klik Operation Center di pojok kanan atas tab konfigurasi node yang sesuai untuk pergi ke Pusat Operasi di lingkungan produksi.

    2. Lihat tugas yang dijadwalkan. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas pemicu otomatis.

    Untuk melihat lebih banyak informasi tentang tugas, klik Operation Center di bilah navigasi atas halaman DataStudio. Untuk informasi lebih lanjut, lihat Ikhtisar.