Data Studio memungkinkan Anda membuat dan mengelola resource E-MapReduce (EMR) JAR dan File secara visual. Resource ini dapat digunakan untuk membuat user-defined function atau langsung di Data Studio. Topik ini menjelaskan cara membuat dan menggunakan resource serta fungsi tersebut.
Prasyarat
Anda telah menyambungkan resource komputasi EMR atau resource komputasi EMR Serverless Spark. Resource dan fungsi EMR dibuat berdasarkan resource komputasi ini.
Anda telah mengembangkan file resource yang diperlukan. File tersebut dapat diunggah dari komputer lokal atau diambil dari Object Storage Service (OSS). Jika Anda membuat resource dengan mengunggah file dari OSS, kondisi berikut harus dipenuhi:
OSS telah diaktifkan, bucket OSS telah dibuat, dan file yang ingin Anda unggah telah disimpan di bucket OSS tersebut. Karena Anda harus memilih file dari bucket tertentu, terlebih dahulu buat bucket dan unggah file terkait sebelum membuat resource.
Akun Alibaba Cloud yang Anda gunakan untuk mengunggah file memiliki izin untuk mengakses dan menulis data ke bucket tujuan. Untuk mencegah masalah izin, berikan izin yang diperlukan kepada akun tersebut sebelum mengunggah file.
Buka Resource Management
Buka halaman Workspaces di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan workspace yang diinginkan, lalu pilih pada kolom Actions.
Di panel navigasi kiri, klik ikon Resource Management
untuk membuka halaman Resource Management.Di halaman tersebut, klik ikon
untuk membuat resource atau fungsi baru. Atau, Anda dapat terlebih dahulu mengklik Create Directory untuk mengatur resource Anda. Kemudian, klik kanan folder target dan pilih jenis resource atau fungsi yang akan dibuat.
Buat dan gunakan resource
Deskripsi resource
Di bagian Resource Management Data Studio, Anda dapat membuat resource yang ditunjukkan dalam tabel berikut. Resource tersebut dapat disimpan di OSS atau Hadoop Distributed File System (HDFS), lalu digunakan di Data Studio atau untuk membuat user-defined function.
Saat Anda mengunggah resource EMR ke OSS atau menggunakan resource EMR yang disimpan di OSS, biaya dasar OSS berlaku.
Resource type | Description | Supported upload methods | |
Local | OSS | ||
EMR File | Unggah file jenis apa pun sebagai resource File. Penggunaan aktual tergantung pada apakah mesin komputasi mendukung jenis file tersebut. |
|
|
EMR Jar | Paket JAR Java yang telah dikompilasi digunakan untuk menjalankan program Java. Ekstensi nama file adalah | ||
Batasan
Resource yang diunggah harus memenuhi batasan berikut:
Ukuran sumber daya:
Penerbitan resource: Jika Anda menggunakan workspace mode standar, Anda harus menerbitkan resource ke lingkungan produksi agar berlaku.
CatatanInformasi sumber data berbeda antara lingkungan pengembangan dan lingkungan produksi. Sebelum melakukan kueri tabel atau resource di suatu lingkungan, pastikan informasi sumber data sudah benar untuk lingkungan tersebut.
Manajemen resource: Di DataWorks, Anda hanya dapat melihat dan mengelola resource yang diunggah melalui antarmuka DataWorks.
Buat resource
Anda dapat mengunggah resource EMR dari komputer lokal atau dari OSS. Resource yang telah dibuat dapat direferensikan langsung di Data Studio atau digunakan untuk membuat fungsi.
Di halaman Resource Management, pada kotak dialog Create Resource or Function yang muncul, konfigurasikan Type, Path, dan Name resource.
Setelah membuat resource, unggah file lokal atau objek OSS sebagai sumber file. Tabel berikut menjelaskan parameter utama untuk mengunggah resource.
Configuration Item
Parameter description
File source
Sumber file objek. Nilai yang valid: Local dan OSS.
File content
Jika Anda memilih Local, klik Click to upload di bagian Upload File untuk mengunggah file lokal.
Jika Anda memilih OSS, pilih file OSS dari daftar drop-down Select File.
Storage path
Jalur tempat resource disimpan. Nilai yang valid: OSS dan HDFS.
Jika Anda memilih OSS, berikan izin lalu pilih direktori.
CatatanAnda harus menggunakan Akun Alibaba Cloud Anda untuk melakukan otorisasi.
Jika Anda memilih HDFS, Anda harus memasukkan jalur penyimpanan secara manual.
Contoh:
/user/admin/[specific path].
CatatanPaket JAR dapat disimpan di salah satu lokasi berikut:
Paket JAR disimpan di node Master kluster EMR.
Paket JAR disimpan di Object Storage Service (Object Storage Service, OSS). Kami menyarankan Anda menggunakan OSS untuk penyimpanan. Untuk informasi selengkapnya, lihat Store JAR packages in OSS.
Data source
Sumber data tempat resource EMR yang diunggah berasal.
Resource group
Pilih Serverless resource group yang dapat terhubung ke sumber data EMR.
Di bilah alat, klik Save lalu Publish. Hanya resource yang telah diterbitkan yang dapat digunakan di Data Studio.
CatatanSaat Anda menggunakan Serverless resource group untuk mengirimkan resource, DataWorks mengirimkan tugas ke Mesin DPI untuk membuat resource dan menghasilkan log eksekusi. Anda dapat menggunakan log ini untuk memecahkan masalah yang terjadi selama pengiriman. Jika Anda tidak memiliki Serverless resource group yang tersedia, tambahkan Serverless resource group.
Menggunakan sumber daya
Setelah membuat resource, buka Resource Management di panel navigasi kiri. Temukan resource target, klik kanan, lalu pilih Reference Resource. Saat resource direferensikan, kode dalam format ##@resource_reference{"Resource Name"} akan ditambahkan ke node tersebut.
Sebagai contoh, kode untuk node EMR MR adalah ##@resource_reference{"example.jar"}. Format kode bervariasi tergantung pada jenis node.
Anda juga dapat membuat fungsi dari resource tersebut lalu menggunakannya di node pengembangan.
Buat dan gunakan fungsi
Sebelum membuat fungsi, pastikan Anda telah membuat resource.
Deskripsi fungsi
Di bagian Resource Management Data Studio, Anda dapat mendaftarkan resource sebagai fungsi EMR. Selain fungsi bawaan yang disediakan oleh Hive, Anda juga dapat menggunakan user-defined functions yang Anda buat di Data Studio atau dalam kueri SQL.
Buat fungsi
Di halaman Resource Management, pada kotak dialog Create Resource or Function yang muncul, konfigurasikan Type, Path, dan Name fungsi.
Klik Confirm untuk membuat resource fungsi. Lalu, konfigurasikan parameter fungsi berdasarkan jenisnya.
Sebelum mengonfigurasi fungsi EMR, pastikan kluster EMR telah didaftarkan sebagai resource komputasi di DataWorks dan Anda telah membuat resource EMR. Tabel berikut menjelaskan parameter utama untuk fungsi EMR.
Parameter
Description
Function Type
Jenis fungsi. Nilai yang valid: MATH (operasi matematika), AGGREGATE (fungsi agregat), STRING (string), DATE (tanggal), ANALYTIC (window), dan OTHER (lainnya).
Data Source
Sumber data tempat Anda ingin mendaftarkan fungsi EMR.
EMR Database
Database EMR tempat Anda ingin mendaftarkan fungsi.
Resource Group
Pilih Serverless resource group yang dapat terhubung ke sumber data EMR.
Class Name
Nama kelas user-defined function (UDF). Nama kelas harus dalam format
Resource name.Class namedan harus sama dengan nama kelas dalam paket JAR.Jika jenis resource adalah JAR, atur parameter Class Name ke nilai dalam format
Java package name.Actual class name. Anda dapat menjalankan pernyataanCopy ReferencediIntelliJ IDEAuntuk mendapatkan nama kelas tersebut.Sebagai contoh, jika nama paket Java adalah
com.aliyun.emr.examples.udfdan nama kelas aktual adalahUDAFExample, atur parameter Class Name menjadicom.aliyun.emr.examples.udf.UDAFExample.Resource List
Parameter ini wajib diisi. Pilih resource yang telah ditambahkan ke workspace saat ini dari daftar drop-down.
Di bilah alat, klik Save lalu Publish. Hanya fungsi yang telah diterbitkan yang dapat digunakan di Data Studio.
Gunakan fungsi
Setelah fungsi dibuat dan diterbitkan, Anda dapat mereferensikannya secara langsung di Data Studio atau dalam kueri SQL.
Saat mengedit node pengembangan data, klik Resource Management di panel navigasi kiri. Lalu, temukan resource atau fungsi target, klik kanan, dan pilih Insert Function.
Setelah fungsi berhasil direferensikan, nama user-defined function akan otomatis dimasukkan ke halaman pengeditan node, misalnya
example_function().Saat mengedit kueri SQL, Anda dapat langsung menggunakan fungsi yang telah dibuat.
SELECT example_function(column_name) FROM table;Kelola resource dan fungsi
Setelah mengunggah resource atau membuat fungsi di Data Studio, Anda dapat membuka halaman Resource Management dan memilih resource atau fungsi target untuk mengelolanya.
Lihat versi historis: Klik ikon versi di sisi kanan halaman pengeditan resource atau fungsi untuk melihat dan membandingkan versi yang telah disimpan atau dikirimkan. Hal ini memungkinkan Anda melihat perubahan antar versi berbeda.
CatatanAnda harus memilih minimal dua versi untuk membandingkan.
Hapus resource atau fungsi: Klik kanan resource atau fungsi target lalu pilih Delete.
Untuk menghapus resource atau fungsi dari lingkungan produksi, Anda harus menerbitkan penghapusan ke lingkungan produksi. Setelah tugas diterbitkan, resource atau fungsi tersebut akan dihapus dari lingkungan produksi.