Jika Anda telah menerapkan kluster Cloudera's Distribution Including Apache Hadoop (CDH), Anda dapat menggunakan node CDH Hive di DataWorks untuk menjalankan tugas Hive guna menanyakan atau memproses data secara massal. Topik ini menjelaskan cara membuat node CDH Hive.
Prasyarat
Sebuah alur kerja dibuat di DataStudio.
Operasi pengembangan di berbagai jenis mesin komputasi dilakukan berdasarkan alur kerja di DataStudio. Oleh karena itu, sebelum membuat sebuah node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.
Sebuah kluster CDH dibuat dan didaftarkan ke DataWorks. Untuk informasi lebih lanjut, lihat DataStudio (versi lama): Asosiasikan sumber daya komputasi CDH.
(Diperlukan jika Anda menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Development atau Workspace Administrator. Peran Workspace Administrator memiliki lebih banyak izin daripada yang diperlukan. Berhati-hatilah saat memberikan peran Workspace Administrator. Untuk informasi lebih lanjut tentang cara menambahkan anggota, lihat Tambah anggota ruang kerja dan tetapkan peran kepada mereka.
Sumber daya tanpa server dibeli dan dikonfigurasi. Konfigurasinya mencakup asosiasi dengan ruang kerja dan konfigurasi jaringan. Untuk informasi lebih lanjut, lihat Buat dan gunakan sumber daya tanpa server.
Batasan
Tugas pada jenis node ini dapat dijalankan pada sumber daya tanpa server atau grup sumber daya eksklusif versi lama untuk penjadwalan. Kami sarankan Anda menjalankan tugas pada sumber daya tanpa server.
Langkah 1: Buat node CDH Hive
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi di sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di halaman DataStudio, temukan alur kerja yang diinginkan, klik kanan nama alur kerja, dan pilih .
CatatanSebagai alternatif, Anda dapat mengarahkan pointer ke ikon Create di bagian atas panel Alur Kerja Terjadwal dan membuat node CDH sesuai petunjuk.
Di kotak dialog Create Node, konfigurasikan parameter Name dan klik Confirm. Kemudian, Anda dapat menggunakan node yang dibuat untuk mengembangkan dan mengonfigurasi tugas.
Langkah 2: Kembangkan tugas Hive
Anda dapat mengklik dua kali nama node yang dibuat untuk pergi ke tab konfigurasi node dan kemudian melakukan operasi berikut untuk mengembangkan tugas.
(Opsional) Pilih instance mesin komputasi CDH
Jika beberapa kluster CDH terdaftar ke ruang kerja saat ini, Anda harus memilih satu dari daftar drop-down Instance Mesin CDH berdasarkan kebutuhan bisnis Anda. Jika hanya ada satu kluster CDH yang terdaftar ke ruang kerja saat ini, Anda tidak perlu memilih kluster CDH.
Contoh pengembangan kode SQL sederhana
Di editor SQL, masukkan kode untuk node. Contoh:
TAMPILKAN tabel;
PILIH * DARI userinfo ;Kembangkan kode SQL: Gunakan parameter penjadwalan
DataWorks menyediakan scheduling parameters yang nilainya diganti secara dinamis dalam kode tugas berdasarkan konfigurasi parameter penjadwalan dalam skenario penjadwalan periodik. Anda dapat mendefinisikan variabel dalam kode tugas dalam format ${Variabel} dan menetapkan nilai ke variabel di bagian Scheduling Parameter dari tab Properties. Untuk informasi tentang format yang didukung dari parameter penjadwalan, lihat Format yang didukung dari parameter penjadwalan.
PILIH '${var}'; -- Anda dapat menetapkan parameter penjadwalan tertentu ke variabel var.
Langkah 3: Konfigurasikan properti penjadwalan tugas
Jika Anda ingin sistem secara berkala menjalankan tugas pada node, Anda dapat mengklik Properties di panel navigasi di sebelah kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan tugas berdasarkan kebutuhan bisnis Anda.
Konfigurasikan properti dasar untuk tugas. Untuk informasi lebih lanjut, lihat Konfigurasikan properti dasar.
Konfigurasikan siklus penjadwalan, properti jalankan ulang, dan dependensi penjadwalan. Untuk informasi lebih lanjut, lihat Konfigurasikan properti waktu dan Konfigurasikan dependensi penjadwalan siklus yang sama.
CatatanAnda harus mengonfigurasi parameter Rerun dan Parent Nodes di tab Properti sebelum Anda mengirimkan tugas.
Konfigurasikan properti sumber daya untuk node. Untuk informasi lebih lanjut, lihat Konfigurasikan properti sumber daya. Jika node yang Anda buat adalah node pemicu otomatis dan Anda ingin node tersebut mengakses Internet atau virtual private cloud (VPC), Anda harus memilih grup sumber daya untuk penjadwalan yang terhubung ke node. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.
Langkah 4: Debug kode tugas
Opsional. Pilih grup sumber daya dan tetapkan parameter kustom ke variabel.
Klik ikon
di bilah alat atas tab konfigurasi node. Di kotak dialog Parameters, pilih grup sumber daya yang ingin Anda gunakan untuk debug dan jalankan kode tugas.Jika Anda menggunakan parameter penjadwalan dalam kode tugas Anda, tetapkan parameter penjadwalan ke variabel sebagai nilai dalam kode tugas untuk debugging. Untuk informasi lebih lanjut tentang logika penetapan nilai parameter penjadwalan, lihat Apa perbedaan logika penetapan nilai parameter penjadwalan di antara mode Jalankan, Jalankan dengan Parameter, dan Lakukan Pengujian Asap di Lingkungan Pengembangan?
Simpan dan eksekusi pernyataan SQL.
Di bilah alat atas, klik ikon
untuk menyimpan pernyataan SQL. Lalu, klik ikon
untuk mengeksekusi pernyataan SQL.Opsional. Lakukan pengujian asap.
Anda dapat melakukan pengujian asap pada tugas di lingkungan pengembangan saat Anda mengirimkan tugas atau setelah Anda mengirimkan tugas. Untuk informasi lebih lanjut, lihat Lakukan pengujian asap.
Apa yang harus dilakukan selanjutnya
Kirimkan dan terapkan tugas.
Klik ikon
di bilah alat atas untuk menyimpan tugas.Klik ikon
di bilah alat atas untuk mengirimkan tugas.Di kotak dialog Submit, konfigurasikan parameter Change description.
Klik Confirm.
Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus menerapkan tugas di lingkungan produksi setelah Anda mengirimkan tugas. Untuk menerapkan tugas pada node, klik Deploy di bilah navigasi atas halaman DataStudio. Untuk informasi lebih lanjut, lihat Terapkan tugas.
Lihat tugas.
Klik Operation Center di sudut kanan atas tab konfigurasi node yang sesuai untuk pergi ke Pusat Operasi di lingkungan produksi.
Lihat tugas terjadwal. Untuk informasi lebih lanjut, lihat Lihat dan kelola tugas pemicu otomatis.
Untuk melihat lebih banyak informasi tentang tugas, klik Operation Center di bilah navigasi atas halaman DataStudio. Untuk informasi lebih lanjut, lihat Ikhtisar.