All Products
Search
Document Center

DataWorks:Resource dan fungsi EMR

Last Updated:Apr 24, 2026

Data Studio memungkinkan Anda membuat dan mengelola resource EMR Jar dan File melalui antarmuka visual. Resource ini dapat digunakan untuk membuat fungsi kustom atau direferensikan di Data Studio. Topik ini menjelaskan cara membuat dan menggunakan resource serta fungsi tersebut.

Prasyarat

  • Anda telah mengaitkan resource komputasi EMR atau Mengaitkan resource EMR Serverless Spark. Semua operasi pembuatan resource dan fungsi didasarkan pada resource komputasi EMR.

  • Anda telah menyiapkan file resource. File tersebut dapat diunggah dari komputer lokal atau diambil dari Object Storage Service (OSS). Untuk membuat resource dengan mengunggah file OSS, kondisi berikut harus dipenuhi:

    • Anda telah mengaktifkan OSS, membuat bucket, dan mengunggah file yang diperlukan ke bucket OSS tersebut. Karena Anda harus memilih file dari bucket tertentu, sebelum membuat resource dengan metode ini, buat bucket dan unggah file.

    • Akun Alibaba Cloud yang mengunggah file telah diberikan izin untuk mengakses dan menulis ke bucket target. Untuk menghindari masalah izin, berikan izin kepada akun pengoperasian sebelum mengunggah.

Buat dan gunakan resource

Deskripsi resource

Data Studio mendukung jenis resource yang tercantum dalam tabel berikut untuk manajemen resource dan fungsi. Resource ini dapat disimpan di OSS atau HDFS, lalu digunakan di Data Studio atau untuk membuat fungsi kustom.

Penting

Mengunggah resource EMR ke OSS atau menggunakan resource EMR yang disimpan di OSS akan dikenai biaya sesuai item yang dapat ditagih dasar OSS standar.

Jenis resource

Deskripsi

Metode unggah yang didukung

Lokal

OSS

EMR File

Anda dapat mengunggah file jenis apa pun sebagai resource File. Dukungan aktual bergantung pada masing-masing engine.

image

image

EMR Jar

Paket JAR Java terkompilasi yang digunakan untuk menjalankan program Java. Ekstensi file-nya adalah .jar.

Batasan

Resource yang diunggah harus memenuhi batasan berikut:

  • Catatan

    Informasi sumber data di lingkungan pengembangan dan produksi mungkin berbeda. Sebelum melakukan kueri tabel, resource, atau operasi terkait di suatu lingkungan, pastikan informasi sumber data untuk lingkungan tersebut telah sesuai.

Buat resource

Resource EMR mendukung unggah lokal maupun unggah dari OSS. Resource yang telah dibuat dapat direferensikan langsung dalam pengembangan data atau digunakan untuk membuat fungsi.

  1. Setelah membuat resource, unggah file dari OSS atau komputer lokal sebagai sumber file. Berikut adalah parameter utama untuk mengunggah resource:

    Item konfigurasi

    Deskripsi

    Sumber file

    Sumber file target. Opsi yang tersedia adalah Local dan OSS.

    Konten file

    • Jika Anda memilih Local, pada Upload File, klik Click Upload untuk mengunggah file lokal.

    • Jika Anda memilih OSS, pilih file OSS dari daftar drop-down Select File.

    Jalur penyimpanan

    Pilih jalur penyimpanan untuk resource. Dua jenis penyimpanan didukung: OSS dan HDFS:

    • Jika Anda memilih OSS, berikan akses terlebih dahulu, lalu pilih direktori.

      Catatan

      Akun Alibaba Cloud (akun root) harus melakukan otorisasi di sini.

    • Jika Anda memilih HDFS, masukkan jalur penyimpanan secara manual.

      Contoh: /user/admin/[specific_path].

    Catatan

    Saat ini, paket JAR tugas Anda hanya mendukung dua lokasi penyimpanan berikut:

    • Paket JAR disimpan di mesin master kluster EMR.

    • Paket JAR disimpan di Object Storage Service (Object Storage Service, OSS). Kami menyarankan Anda menggunakan OSS. Untuk informasi selengkapnya, lihat Gunakan OSS untuk menyimpan paket JAR.

    Sumber data

    Pilih sumber data tempat resource EMR yang diunggah berasosiasi.

    Kelompok sumber daya

    Pilih serverless resource group yang memiliki konektivitas jaringan ke sumber data EMR.

  2. Pada bilah alat atas, klik Save dan Publish resource tersebut. Hanya resource yang telah diterapkan yang dapat digunakan di Data Studio.

    Catatan

    Saat Anda mengirimkan resource menggunakan serverless resource group, platform DataWorks akan mengirimkan tugas pembuatan resource ke engine untuk dieksekusi dan mencetak log waktu proses. Jika terjadi error selama pengiriman, Anda dapat menggunakan log tersebut untuk troubleshooting mandiri. Jika tidak tersedia serverless resource group, buat serverless resource group.

Gunakan resource

Setelah membuat resource, pada panel navigasi kiri, klik Resource Management. Temukan resource atau fungsi target, klik kanan, lalu pilih Insert Resource Path. Saat resource berhasil direferensikan, kode dalam format ##@resource_reference{"resource_name"} akan ditampilkan.

Catatan

Sebagai contoh, untuk node EMR MR, format yang ditampilkan adalah ##@resource_reference{"example.jar"}. Format yang ditampilkan bervariasi tergantung jenis node. Antarmuka aktual yang berlaku.

Selain menggunakan resource secara langsung, Anda juga dapat membuat fungsi dari resource tersebut, lalu menggunakannya di node pengembangan.

Buat dan gunakan fungsi

Sebelum membuat fungsi, pastikan Anda telah membuat resource.

Deskripsi fungsi

Dalam manajemen resource dan fungsi Data Studio, Anda dapat mendaftarkan resource sebagai fungsi EMR. Di Data Studio atau kueri SQL, Anda dapat menggunakan built-in functions Hive dan fungsi kustom yang Anda buat.

Buat fungsi

  1. Klik Confirm untuk membuat resource fungsi, lalu konfigurasikan informasi fungsi berdasarkan jenis fungsinya.

    Sebelum mengonfigurasi fungsi EMR, pastikan kluster EMR telah didaftarkan sebagai resource komputasi di DataWorks dan Anda telah mengunggah resource EMR yang telah dibuat. Konfigurasi utama untuk fungsi EMR dijelaskan di bawah ini.

    Parameter

    Deskripsi

    Function type

    Pilih jenis fungsi: MATH (fungsi matematika), AGGREGATE (fungsi agregat), STRING (fungsi string), DATE (fungsi tanggal), ANALYTIC (fungsi jendela), atau OTHER (fungsi lainnya).

    Data Sources

    Pilih sumber data tempat fungsi EMR akan didaftarkan.

    EMR database

    Database EMR tempat fungsi akan didaftarkan.

    Resource Group

    Pilih serverless resource group yang memiliki konektivitas jaringan ke sumber data EMR.

    Class Name

    Nama kelas UDF, dalam format resource_name.class_name. Nama ini harus persis sesuai dengan kelas aktual dalam paket JAR.

    Saat jenis resource adalah JAR, format Class Name adalah Java_package_name.actual_class_name. Anda dapat memperolehnya di IntelliJ IDEA dengan menggunakan Copy Reference.

    Sebagai contoh, jika com.aliyun.emr.examples.udf adalah nama paket Java dan UDAFExample adalah nama kelas aktual, atur parameter Class Name menjadi com.aliyun.emr.examples.udf.UDAFExample.

    Resource List

    Pilih resource yang telah ditambahkan ke ruang kerja saat ini dari daftar drop-down. Parameter ini wajib diisi.

  2. Pada bilah alat atas, klik Save dan Publish fungsi tersebut. Hanya fungsi yang telah diterapkan yang dapat digunakan di Data Studio.

Gunakan fungsi

Setelah fungsi dibuat dan diterapkan, Anda dapat mereferensikannya langsung di Data Studio atau kueri SQL.

  • Saat mengedit node pengembangan data, klik Resource Management pada panel navigasi kiri. Temukan fungsi target, klik kanan, lalu pilih Insert Function.

    Nama fungsi, seperti example_function(), akan dimasukkan secara otomatis ke editor.

  • Saat mengedit kueri SQL, Anda dapat langsung menggunakan fungsi yang telah dibuat dalam pernyataan SQL Anda.

SELECT example_function(column_name) FROM table;

Kelola resource dan fungsi

Setelah mengunggah resource atau membuat fungsi melalui antarmuka visual Data Studio, Anda dapat mengelolanya di halaman manajemen resource dengan mengklik resource atau fungsi target.

  • Lihat riwayat versi: Klik tombol versi di sisi kanan halaman editor resource atau fungsi untuk melihat dan membandingkan versi fungsi yang telah disimpan atau dikirimkan serta melihat perubahan antar versi berbeda.

    Catatan

    Untuk perbandingan versi, Anda harus memilih minimal dua versi.

  • Hapus resource atau fungsi: Klik kanan resource atau fungsi target, lalu klik tombol Delete untuk menghapusnya.

    Untuk menghapus resource atau fungsi di lingkungan produksi, Anda harus menerapkan tugas tersebut dan menerapkan penghapusan ke lingkungan produksi. Setelah penerapan berhasil, resource atau fungsi tersebut akan dihapus secara sinkron dari lingkungan produksi.