DataWorks memungkinkan Anda membuat resource E-MapReduce (EMR) JAR dan EMR FILE secara visual. Anda dapat mengunggah fungsi kustom atau kode contoh MapReduce (MR) open-source sebagai resource dan mereferensikannya dalam tugas pengembangan data yang dijalankan pada node komputasi EMR. Topik ini menjelaskan cara membuat, mengunggah, dan menyerahkan resource.
Prasyarat
Prasyarat bervariasi tergantung jenis engine. Anda harus menyelesaikan persiapan yang diperlukan baik di EMR maupun DataWorks.
-
DataLake: Untuk informasi selengkapnya, lihat Konfigurasi kluster DataLake dan Konfigurasi DataWorks.
Buat resource EMR
-
Masuk ke Konsol DataWorks. Di wilayah target, klik di panel navigasi sebelah kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Data Development.
-
Arahkan pointer ke ikon
lalu klik atau .Atau, temukan alur kerja, klik kanan alur kerja tersebut, lalu pilih atau .
-
Pada kotak dialog Create Resource, konfigurasikan parameter berikut.
Parameter
Deskripsi
Engine Type
Jenis engine adalah EMR secara default dan tidak dapat diubah.
Engine Instance
Pilih instans engine dari daftar drop-down.
CatatanDaftar ini menampilkan engine EMR yang terikat ke ruang kerja di Data Development.
Resource Type
Hanya tipe resource EMR JAR dan EMR FILE yang didukung.
Path
Jalur alur kerja tempat resource akan ditempatkan.
Storage path
Pilih jalur penyimpanan untuk resource. Jenis penyimpanan yang didukung mencakup OSS dan HDFS.
-
Jika Anda memilih OSS, Anda harus memberikan otorisasi terlebih dahulu, lalu memilih direktori.
CatatanAnda harus menggunakan Akun Alibaba Cloud untuk memberikan izin tersebut.
-
Jika Anda memilih HDFS, Anda harus memasukkan jalur penyimpanan secara manual.
CatatanPaket JAR tugas hanya dapat disimpan di lokasi berikut:
-
Node master kluster EMR.
-
Object Storage Service (OSS). Kami menyarankan agar Anda menyimpan paket JAR di OSS. Untuk informasi selengkapnya tentang cara menyimpan paket JAR di OSS, lihat Operasi di konsol OSS.
File Source
Sumber file target. Sumber yang didukung mencakup Local dan OSS.
-
Jika Anda memilih Local, klik Click Upload di bidang Upload File untuk mengunggah file lokal.
-
Jika Anda memilih OSS, pilih file OSS dari daftar drop-down Select file, atau klik Create in OSS untuk membuat file OSS.
Name
Nama resource EMR baru. Jika Anda mengunggah resource JAR, Anda harus menyertakan ekstensi .jar.
-
-
Di kotak dialog Create Resource, klik Create.
-
Klik ikon
dan
di bilah alat untuk menyimpan dan menyerahkan resource.CatatanSaat menyerahkan resource, Anda harus memilih kelompok sumber daya penjadwalan. Jika menggunakan kelompok sumber daya arsitektur tanpa server (serverless), DataWorks akan mengirimkan tugas ke engine untuk membuat resource dan mencetak log eksekusi. Jika terjadi masalah selama proses penyerahan, gunakan log tersebut untuk troubleshooting. Jika tidak memiliki kelompok sumber daya arsitektur tanpa server yang tersedia, Anda harus membeli dan mengonfigurasinya. Untuk informasi selengkapnya, lihat Gunakan kelompok sumber daya arsitektur tanpa server.
Gunakan resource untuk mendaftarkan fungsi
DataWorks menyediakan cara visual untuk mendaftarkan fungsi dengan menggunakan resource. Setelah mengunggah resource yang diperlukan, Anda dapat menggunakannya untuk mendaftarkan fungsi melalui antarmuka pengguna. Di Data Development, buka formulir Register Function dan konfigurasikan parameter berikut. Misalnya, atur Function Type menjadi Other Function, pilih EMR Engine Instance target seperti xc_emr2, atur EMR Engine Type menjadi Hive, dan atur EMR Database menjadi default. Kemudian, masukkan Function Name seperti xc_ip2region serta nama lengkap class UDF, misalnya org.alidata.emr.udf.Ip2Region. Terakhir, pada Resource List, kaitkan fungsi tersebut dengan file JAR yang telah diunggah dari pohon resource di sebelah kiri, seperti xc_ip2region-emr.jar.
Gunakan resource dalam node
Setelah membuat resource EMR JAR, untuk menggunakannya langsung dalam node, pilih node resource di folder Resources, klik kanan node tersebut, lalu pilih Insert Resource Path. Anda juga dapat mengklik kanan file resource di pohon resource di sebelah kiri dan memilih Insert Resource Path.
Setelah menyisipkan jalur resource, satu baris kode dalam format @resource_reference{"resourcename"} akan ditambahkan secara otomatis ke node tersebut, yang mereferensikan resource tersebut.
Untuk langkah-langkah detail, lihat Buat node EMR MR.
Kelola versi resource
Versi resource baru dihasilkan setiap kali Anda menyerahkan resource. Anda dapat melihat dan mengunduh resource dengan mengklik kanan node resource-nya lalu mengklik View Versions. Di direktori resource di sebelah kiri, klik kanan file resource target, seperti xc_ip2region.jar, lalu pilih View Historical Versions. Kotak dialog Version Information akan muncul dan menampilkan ID File, Nomor Versi, Pengirim, Waktu Penyerahan, Jenis Perubahan, dan Status untuk setiap versi. Anda dapat mengklik Download Code untuk versi tertentu guna mendapatkan kode historisnya, atau memilih beberapa versi lalu mengklik tombol Compare di bagian bawah untuk membandingkan perbedaan di antara versi-versi tersebut.