Data Studio memungkinkan Anda membuat dan mengelola resource EMR Jar dan File melalui antarmuka visual. Resource ini dapat digunakan untuk membuat fungsi kustom atau direferensikan di Data Studio. Topik ini menjelaskan cara membuat dan menggunakan resource serta fungsi tersebut.
Prasyarat
-
Anda telah mengaitkan resource komputasi EMR atau Mengaitkan resource EMR Serverless Spark. Semua operasi pembuatan resource dan fungsi didasarkan pada resource komputasi EMR.
-
Anda telah menyiapkan file resource. File tersebut dapat diunggah dari komputer lokal atau diambil dari Object Storage Service (OSS). Untuk membuat resource dengan mengunggah file OSS, kondisi berikut harus dipenuhi:
-
Anda telah mengaktifkan OSS, membuat bucket, dan mengunggah file yang diperlukan ke bucket OSS tersebut. Karena Anda harus memilih file dari bucket tertentu, sebelum membuat resource dengan metode ini, buat bucket dan unggah file.
-
Akun Alibaba Cloud yang mengunggah file telah diberikan izin untuk mengakses dan menulis ke bucket target. Untuk menghindari masalah izin, berikan izin kepada akun pengoperasian sebelum mengunggah.
-
Buat dan gunakan resource
Deskripsi resource
Data Studio mendukung jenis resource yang tercantum dalam tabel berikut untuk manajemen resource dan fungsi. Resource ini dapat disimpan di OSS atau HDFS, lalu digunakan di Data Studio atau untuk membuat fungsi kustom.
Mengunggah resource EMR ke OSS atau menggunakan resource EMR yang disimpan di OSS akan dikenai biaya sesuai item yang dapat ditagih dasar OSS standar.
|
Jenis resource |
Deskripsi |
Metode unggah yang didukung |
|
|
Lokal |
OSS |
||
|
EMR File |
Anda dapat mengunggah file jenis apa pun sebagai resource File. Dukungan aktual bergantung pada masing-masing engine. |
|
|
|
EMR Jar |
Paket JAR Java terkompilasi yang digunakan untuk menjalankan program Java. Ekstensi file-nya adalah |
||
Batasan
Resource yang diunggah harus memenuhi batasan berikut:
-
Catatan
Informasi sumber data di lingkungan pengembangan dan produksi mungkin berbeda. Sebelum melakukan kueri tabel, resource, atau operasi terkait di suatu lingkungan, pastikan informasi sumber data untuk lingkungan tersebut telah sesuai.
Buat resource
Resource EMR mendukung unggah lokal maupun unggah dari OSS. Resource yang telah dibuat dapat direferensikan langsung dalam pengembangan data atau digunakan untuk membuat fungsi.
-
Setelah membuat resource, unggah file dari OSS atau komputer lokal sebagai sumber file. Berikut adalah parameter utama untuk mengunggah resource:
Item konfigurasi
Deskripsi
Sumber file
Sumber file target. Opsi yang tersedia adalah Local dan OSS.
Konten file
-
Jika Anda memilih Local, pada Upload File, klik Click Upload untuk mengunggah file lokal.
-
Jika Anda memilih OSS, pilih file OSS dari daftar drop-down Select File.
Jalur penyimpanan
Pilih jalur penyimpanan untuk resource. Dua jenis penyimpanan didukung: OSS dan HDFS:
-
Jika Anda memilih OSS, berikan akses terlebih dahulu, lalu pilih direktori.
CatatanAkun Alibaba Cloud (akun root) harus melakukan otorisasi di sini.
-
Jika Anda memilih HDFS, masukkan jalur penyimpanan secara manual.
Contoh:
/user/admin/[specific_path].
CatatanSaat ini, paket JAR tugas Anda hanya mendukung dua lokasi penyimpanan berikut:
-
Paket JAR disimpan di mesin master kluster EMR.
-
Paket JAR disimpan di Object Storage Service (Object Storage Service, OSS). Kami menyarankan Anda menggunakan OSS. Untuk informasi selengkapnya, lihat Gunakan OSS untuk menyimpan paket JAR.
Sumber data
Pilih sumber data tempat resource EMR yang diunggah berasosiasi.
Kelompok sumber daya
Pilih serverless resource group yang memiliki konektivitas jaringan ke sumber data EMR.
-
-
Pada bilah alat atas, klik Save dan Publish resource tersebut. Hanya resource yang telah diterapkan yang dapat digunakan di Data Studio.
CatatanSaat Anda mengirimkan resource menggunakan serverless resource group, platform DataWorks akan mengirimkan tugas pembuatan resource ke engine untuk dieksekusi dan mencetak log waktu proses. Jika terjadi error selama pengiriman, Anda dapat menggunakan log tersebut untuk troubleshooting mandiri. Jika tidak tersedia serverless resource group, buat serverless resource group.
Gunakan resource
Setelah membuat resource, pada panel navigasi kiri, klik Resource Management. Temukan resource atau fungsi target, klik kanan, lalu pilih Insert Resource Path. Saat resource berhasil direferensikan, kode dalam format ##@resource_reference{"resource_name"} akan ditampilkan.
Sebagai contoh, untuk node EMR MR, format yang ditampilkan adalah ##@resource_reference{"example.jar"}. Format yang ditampilkan bervariasi tergantung jenis node. Antarmuka aktual yang berlaku.
Selain menggunakan resource secara langsung, Anda juga dapat membuat fungsi dari resource tersebut, lalu menggunakannya di node pengembangan.
Buat dan gunakan fungsi
Sebelum membuat fungsi, pastikan Anda telah membuat resource.
Deskripsi fungsi
Dalam manajemen resource dan fungsi Data Studio, Anda dapat mendaftarkan resource sebagai fungsi EMR. Di Data Studio atau kueri SQL, Anda dapat menggunakan built-in functions Hive dan fungsi kustom yang Anda buat.
Buat fungsi
-
Klik Confirm untuk membuat resource fungsi, lalu konfigurasikan informasi fungsi berdasarkan jenis fungsinya.
Sebelum mengonfigurasi fungsi EMR, pastikan kluster EMR telah didaftarkan sebagai resource komputasi di DataWorks dan Anda telah mengunggah resource EMR yang telah dibuat. Konfigurasi utama untuk fungsi EMR dijelaskan di bawah ini.
Parameter
Deskripsi
Function type
Pilih jenis fungsi: MATH (fungsi matematika), AGGREGATE (fungsi agregat), STRING (fungsi string), DATE (fungsi tanggal), ANALYTIC (fungsi jendela), atau OTHER (fungsi lainnya).
Data Sources
Pilih sumber data tempat fungsi EMR akan didaftarkan.
EMR database
Database EMR tempat fungsi akan didaftarkan.
Resource Group
Pilih serverless resource group yang memiliki konektivitas jaringan ke sumber data EMR.
Class Name
Nama kelas UDF, dalam format
resource_name.class_name. Nama ini harus persis sesuai dengan kelas aktual dalam paket JAR.Saat jenis resource adalah JAR, format Class Name adalah
Java_package_name.actual_class_name. Anda dapat memperolehnya diIntelliJ IDEAdengan menggunakanCopy Reference.Sebagai contoh, jika
com.aliyun.emr.examples.udfadalah nama paket Java danUDAFExampleadalah nama kelas aktual, atur parameter Class Name menjadicom.aliyun.emr.examples.udf.UDAFExample.Resource List
Pilih resource yang telah ditambahkan ke ruang kerja saat ini dari daftar drop-down. Parameter ini wajib diisi.
-
Pada bilah alat atas, klik Save dan Publish fungsi tersebut. Hanya fungsi yang telah diterapkan yang dapat digunakan di Data Studio.
Gunakan fungsi
Setelah fungsi dibuat dan diterapkan, Anda dapat mereferensikannya langsung di Data Studio atau kueri SQL.
-
Saat mengedit node pengembangan data, klik Resource Management pada panel navigasi kiri. Temukan fungsi target, klik kanan, lalu pilih Insert Function.
Nama fungsi, seperti
example_function(), akan dimasukkan secara otomatis ke editor. -
Saat mengedit kueri SQL, Anda dapat langsung menggunakan fungsi yang telah dibuat dalam pernyataan SQL Anda.
SELECT example_function(column_name) FROM table;
Kelola resource dan fungsi
Setelah mengunggah resource atau membuat fungsi melalui antarmuka visual Data Studio, Anda dapat mengelolanya di halaman manajemen resource dengan mengklik resource atau fungsi target.
-
Lihat riwayat versi: Klik tombol versi di sisi kanan halaman editor resource atau fungsi untuk melihat dan membandingkan versi fungsi yang telah disimpan atau dikirimkan serta melihat perubahan antar versi berbeda.
CatatanUntuk perbandingan versi, Anda harus memilih minimal dua versi.
-
Hapus resource atau fungsi: Klik kanan resource atau fungsi target, lalu klik tombol Delete untuk menghapusnya.
Untuk menghapus resource atau fungsi di lingkungan produksi, Anda harus menerapkan tugas tersebut dan menerapkan penghapusan ke lingkungan produksi. Setelah penerapan berhasil, resource atau fungsi tersebut akan dihapus secara sinkron dari lingkungan produksi.