Topik ini menjelaskan cara pengembang dapat membuat node pemicu otomatis di DataStudio. Topik ini memberikan contoh tentang cara menggunakan sumber data MaxCompute untuk menjalankan pekerjaan MaxCompute di DataWorks. Ini membantu Anda memahami dengan cepat penggunaan dasar modul DataStudio.
Prasyarat
Lingkungan yang diperlukan untuk pengembangan data telah disiapkan. Untuk informasi lebih lanjut, lihat Pengembangan Data: Pengembang.
Dalam contoh ini, node ODPS SQL perlu dibuat. Oleh karena itu, Anda harus menambahkan sumber data MaxCompute ke ruang kerja Anda.
Anda harus menyiapkan akun yang memiliki izin pengembangan data. Akun tersebut bisa berupa akun Alibaba Cloud atau pengguna RAM yang ditugaskan peran Workspace Administrator atau Develop.
Informasi latar belakang
DataStudio menyediakan antarmuka pengembangan visual untuk node dari berbagai jenis mesin komputasi, seperti MaxCompute, Hologres, E-MapReduce (EMR), dan CDH. Anda dapat menggunakan antarmuka pengembangan visual untuk mengonfigurasi pengaturan guna melakukan pengembangan kode cerdas, pembersihan dan pemrosesan data, serta pengembangan dan penyebaran node standar. Ini membantu memastikan pengembangan data yang efisien dan stabil. Untuk informasi lebih lanjut tentang cara menggunakan DataStudio, lihat DataStudio (versi lama).
Prosedur yang digunakan untuk menulis data bisnis mentah ke DataWorks dan mendapatkan tabel hasil akhir terdiri dari langkah-langkah berikut:
Buat beberapa tabel di DataWorks. Contoh:
Tabel Sumber: Menyimpan data yang disinkronkan dari sumber data lain.
Tabel Hasil: Menyimpan data yang dibersihkan dan diproses di DataWorks.
Buat node sinkronisasi data untuk menyinkronkan data bisnis ke tabel sumber sebelumnya.
Buat node komputasi untuk membersihkan data dalam tabel sumber, memproses data di setiap lapisan, dan kemudian menulis hasil setiap lapisan ke tabel hasil.
Anda juga dapat mengunggah data dari mesin lokal Anda ke tabel sumber. Kemudian, Anda dapat menggunakan node komputasi untuk membersihkan dan memproses data, serta menyimpan data yang diproses di tabel hasil. Dalam contoh ini, data diunggah dari mesin lokal ke tabel sumber dan node komputasi digunakan untuk membersihkan dan memproses data.
Pergi ke halaman DataStudio
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Prosedur
Kode dikembangkan berdasarkan alur kerja di DataStudio. Sebelum Anda melakukan operasi pengembangan, Anda harus membuat alur kerja.
DataWorks memungkinkan Anda membuat tabel secara visual dan menampilkan tabel dalam struktur direktori. Sebelum pengembangan data, Anda harus membuat tabel di mesin komputasi MaxCompute untuk menyimpan hasil pemrosesan data.
Pengembangan data di DataWorks didasarkan pada node, dan node dari berbagai jenis mesin komputasi dienkapsulasi menjadi berbagai jenis node di DataWorks. Anda dapat memilih tipe node yang sesuai untuk mengembangkan node mesin komputasi berdasarkan kebutuhan bisnis Anda.
Langkah 4: Konfigurasikan Node
Anda dapat menulis kode untuk node di tab konfigurasi node berdasarkan sintaks yang didukung oleh database terkait.
Langkah 5: Konfigurasikan Properti Penjadwalan untuk Node
Anda dapat mengonfigurasi properti penjadwalan untuk node agar sistem dapat menjadwalkan dan menjalankan node secara berkala.
Anda dapat menggunakan fitur Jalankan Cepat untuk potongan kode, atau fitur Jalankan atau Jalankan dengan Parameter untuk men-debug dan memeriksa logika kode node.
Langkah 7: Simpan dan Komit Node
Setelah node di-debug, Anda harus menyimpan dan mengomitmennya.
Langkah 8: Lakukan Pengujian Asap
Untuk memastikan node berjalan efisien di lingkungan produksi dan mencegah pemborosan sumber daya komputasi, Anda dapat mengomitmennya ke lingkungan pengembangan dan melakukan pengujian asap di lingkungan pengembangan sebelum menerapkannya. Ini membantu memastikan kebenaran kode node.
DataWorks hanya dapat menjadwalkan node yang diterapkan ke lingkungan produksi secara otomatis. Setelah node lulus pengujian asap, Anda harus menerapkannya ke lingkungan produksi agar DataWorks dapat menjadwalkan node secara berkala.
Langkah 1: Buat alur kerja
DataWorks mengorganisir proses pengembangan data menggunakan alur kerja. DataWorks menyediakan dasbor untuk berbagai jenis node dalam setiap alur kerja dan memungkinkan Anda menggunakan alat serta mengoptimalkan dan mengelola node di dasbor. Ini memfasilitasi pengembangan dan manajemen data. Anda dapat menempatkan node dari jenis bisnis yang sama dalam satu alur kerja berdasarkan kebutuhan bisnis Anda.
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat alur kerja.
Anda dapat menggunakan salah satu metode berikut untuk membuat alur kerja:
Metode 1: Gerakkan pointer di atas ikon
dan klik Create Workflow.Metode 2: Klik kanan Business Flow di panel Alur Kerja Terjadwal dan pilih Create Workflow.
Di kotak dialog Buat Alur Kerja, konfigurasikan parameter Nama Alur Kerja dan Deskripsi untuk alur kerja, dan klik Create.
Dalam contoh ini, parameter Nama Alur Kerja diatur ke
Buat node pemicu otomatis pertama. Anda dapat mengonfigurasi parameter Nama Alur Kerja berdasarkan kebutuhan bisnis Anda dalam skenario pengembangan data aktual.CatatanUntuk informasi lebih lanjut tentang cara menggunakan alur kerja, lihat Buat Alur Kerja.
Langkah 2: Buat tabel
Node pengembangan data DataWorks membersihkan dan memproses data sumber. Sebelum pengembangan data, Anda harus membuat tabel di mesin komputasi yang diperlukan untuk menyimpan hasil pembersihan data dan menentukan skema tabel.
Buat tabel.
Klik Alur Bisnis di panel Alur Kerja Terjadwal. Temukan alur kerja yang dibuat di Langkah 1, klik nama alur kerja, klik kanan MaxCompute, dan pilih Create Table.
Di kotak dialog Buat Tabel, konfigurasikan parameter seperti Instance Mesin dan Nama.
Dalam contoh ini, tabel-tabel berikut dibuat.
Nama tabel
Deskripsi
bank_dataDigunakan untuk menyimpan data bisnis mentah.
result_tableDigunakan untuk menyimpan hasil pembersihan data.
CatatanUntuk informasi tentang pernyataan pembuatan tabel, lihat Pernyataan Pembuatan Tabel.
Untuk informasi tentang cara membuat tabel di mesin komputasi yang berbeda secara visual, seperti membuat tabel MaxCompute atau tabel EMR, lihat Buat Tabel.
Hasilkan skema tabel.
Pergi ke tab konfigurasi tabel, beralih ke mode DDL, dan gunakan pernyataan DDL untuk menghasilkan skema untuk tabel. Setelah skema tabel dihasilkan, konfigurasikan parameter Display Name di bagian General, klik Komit ke Lingkungan Pengembangan, dan kemudian klik Komit ke Lingkungan Produksi di bilah alat atas. Setelah tabel dikomit, Anda dapat melihat tabel di sumber data MaxCompute di lingkungan terkait. Untuk informasi tentang cara melihat sumber data yang ditambahkan ke ruang kerja di lingkungan yang berbeda, lihat Tambahkan Sumber Data MaxCompute.
CatatanOperasi seperti pembuatan tabel dan pembaruan tabel hanya dapat berlaku di mesin komputasi terkait setelah dikomit ke lingkungan yang diperlukan.
Anda juga dapat mengikuti petunjuk layar yang ditampilkan di konsol DataWorks untuk mengonfigurasi skema tabel secara visual berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut tentang cara membuat tabel secara visual, lihat Buat dan Kelola Tabel MaxCompute.
Dalam contoh ini, pernyataan berikut digunakan untuk menghasilkan skema tabel bank_data:CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT 'Usia', job STRING COMMENT 'Jenis pekerjaan', marital STRING COMMENT 'Status perkawinan', education STRING COMMENT 'Tingkat pendidikan', default STRING COMMENT 'Kartu kredit', housing STRING COMMENT 'Hipotek', loan STRING COMMENT 'Pinjaman', contact STRING COMMENT 'Informasi kontak', month STRING COMMENT 'Bulan', day_of_week STRING COMMENT 'Hari dalam seminggu', duration STRING COMMENT 'Durasi', campaign BIGINT COMMENT 'Jumlah kontak selama kampanye', pdays DOUBLE COMMENT 'Interval dari kontak terakhir', previous DOUBLE COMMENT 'Jumlah kontak dengan pelanggan', poutcome STRING COMMENT 'Hasil kampanye pemasaran sebelumnya', emp_var_rate DOUBLE COMMENT 'Tingkat perubahan pekerjaan', cons_price_idx DOUBLE COMMENT 'Indeks harga konsumen', cons_conf_idx DOUBLE COMMENT 'Indeks kepercayaan konsumen', euribor3m DOUBLE COMMENT 'Tingkat deposito Euro', nr_employed DOUBLE COMMENT 'Jumlah karyawan', y BIGINT COMMENT 'Deposit waktu tersedia atau tidak' );Dalam contoh ini, pernyataan berikut digunakan untuk menghasilkan skema tabel result_table:
CREATE TABLE IF NOT EXISTS result_table ( education STRING COMMENT 'Tingkat pendidikan', num BIGINT COMMENT 'Jumlah orang' ) PARTITIONED BY ( day STRING, hour STRING );Unggah data.
Unggah data bisnis mentah ke tabel di DataWorks. Dalam contoh ini, data diunggah ke tabel
bank_data. Dalam contoh ini, file bernama banking.txt diunggah dari mesin lokal ke DataWorks. Gambar berikut menunjukkan prosedurnya.
Untuk informasi lebih lanjut tentang cara mengunggah data, lihat Unggah File dari Mesin Lokal Anda ke Tabel bank_data.
Langkah 3: Buat node
Pilih tipe node yang sesuai untuk pengembangan node berdasarkan kebutuhan bisnis Anda.
Node di DataWorks dapat diklasifikasikan menjadi node sinkronisasi data dan node komputasi. Dalam sebagian besar skenario pengembangan data, Anda perlu menggunakan node sinkronisasi batch untuk menyinkronkan data dari database bisnis ke gudang data, dan kemudian menggunakan node komputasi untuk membersihkan dan memproses data di gudang data.
Buat node.
Anda dapat menggunakan salah satu metode berikut untuk membuat node:
Metode 1: Buat node di panel Alur Kerja Terjadwal
Di panel Alur Kerja Terjadwal halaman DataStudio, klik Business Flow, temukan alur kerja yang Anda buat, dan klik nama alur kerja.
Klik kanan mesin komputasi yang ingin Anda gunakan, dan pilih tipe node yang sesuai setelah Anda gerakkan pointer di atas Create Node untuk membuat node dari tipe yang dipilih.
Metode 2: Buat node di tab konfigurasi alur kerja
Di panel Alur Kerja Terjadwal halaman DataStudio, klik Business Flow dan temukan alur kerja yang Anda buat.
Klik dua kali nama alur kerja untuk pergi ke tab konfigurasi alur kerja.
Di bagian kiri tab konfigurasi, klik tipe node yang diperlukan atau seret tipe node yang diperlukan ke kanvas di sebelah kanan.
Di kotak dialog Buat Node, konfigurasikan parameter seperti Instance Mesin dan Nama.
Dalam contoh ini, node ODPS SQL bernama
result_tabledibuat. Nama node sama dengan nama tabel hasil yang dibuat di Langkah 2.CatatanSaat Anda menggunakan DataWorks untuk pengembangan data, Anda perlu menggunakan node komputasi untuk membersihkan data dan kemudian menyimpan hasil pembersihan di tabel hasil. Kami sarankan Anda menggunakan nama tabel hasil sebagai nama node untuk dengan cepat menemukan data tabel yang dihasilkan oleh node.

Langkah 4: Konfigurasikan node
Temukan node yang Anda buat di Langkah 3, dan klik dua kali nama node untuk pergi ke tab konfigurasi node. Di tab konfigurasi node, tulis kode node berdasarkan sintaks yang didukung oleh database terkait.
Dalam contoh ini, node result_table digunakan untuk menulis data di partisi tertentu di tabel bank_data ke partisi tertentu di tabel result_table, dan partisi tempat data ditulis ditentukan oleh variabel day dan hour.
Jika Anda ingin menggunakan variabel untuk mengganti parameter secara dinamis dalam skenario penjadwalan selama pengembangan kode, Anda dapat mendefinisikan variabel dalam kode dalam format
${Nama variabel kustom}dan memberikan nilai ke variabel saat Anda mengonfigurasi properti penjadwalan untuk node di Langkah 5.Untuk informasi lebih lanjut tentang parameter penjadwalan, lihat Format yang Didukung dari Parameter Penjadwalan.
Untuk informasi lebih lanjut tentang sintaks kode untuk berbagai jenis node, lihat Buat dan Gunakan Node.
Contoh kode:
INSERT OVERWRITE TABLE result_table partition (day='${day}', hour='${hour}')
SELECT education
, COUNT(marital) AS num
FROM bank_data
GROUP BY education;Langkah 5: Konfigurasikan properti penjadwalan untuk node
Anda dapat mengonfigurasi properti penjadwalan untuk node agar penjadwalan berkala untuk node dapat dilakukan. Di panel navigasi kanan tab konfigurasi node, klik tab Properties. Anda dapat mengonfigurasi properti penjadwalan di berbagai bagian tab untuk node berdasarkan kebutuhan bisnis Anda.
Tab | Deskripsi |
Di bagian ini, nama node, ID node, tipe node, dan pemilik node ditampilkan secara otomatis. Anda tidak perlu mengonfigurasi pengaturan tambahan. Catatan
| |
Di bagian ini, Anda dapat mengonfigurasi parameter penjadwalan yang digunakan untuk menentukan cara node dijadwalkan. DataWorks menyediakan parameter penjadwalan yang dapat diklasifikasikan menjadi parameter kustom dan variabel bawaan berdasarkan metode penetapan nilainya. Parameter penjadwalan mendukung pengaturan parameter dinamis untuk penjadwalan node. Jika variabel didefinisikan selama modifikasi kode node di Langkah 4, Anda dapat memberikan nilai ke variabel di bagian Parameter. Dalam contoh ini, variabel-variabel berikut didefinisikan di Langkah 4, dan nilai-nilai diberikan ke variabel untuk menulis data yang dihasilkan dalam 24 jam hari sebelumnya di tabel
| |
Di bagian ini, Anda dapat mengonfigurasi properti waktu untuk node, seperti mode pembuatan instance, siklus penjadwalan, waktu saat Anda ingin menjadwalkan node untuk mulai, pengaturan ulang jalankan, dan periode timeout. Catatan
Dalam contoh ini, node | |
Di bagian ini, Anda dapat memilih grup sumber daya untuk penjadwalan yang ingin Anda gunakan untuk menerapkan node ke lingkungan produksi. Saat Anda mengaktifkan DataWorks, grup sumber daya serverless disediakan. Dalam contoh ini, grup sumber daya serverless digunakan. Untuk informasi lebih lanjut tentang cara membuat dan menggunakan grup sumber daya serverless, lihat Buat dan gunakan grup sumber daya serverless. | |
Di bagian ini, Anda dapat mengonfigurasi ketergantungan penjadwalan untuk node. Kami sarankan Anda mengonfigurasi ketergantungan penjadwalan untuk node berdasarkan garis keturunan node. Jika node leluhur dari node saat ini berhasil dijalankan, data tabel yang dibutuhkan oleh node saat ini dihasilkan. Dengan cara ini, node saat ini dapat memperoleh data tabel. Catatan
Dalam contoh ini, jika node | |
Di bagian ini, Anda dapat mengonfigurasi parameter masukan dan parameter keluaran untuk node. Konfigurasi di bagian ini bersifat opsional. Sebuah node dapat memperoleh nilai parameter yang dikonfigurasikan untuk node leluhurnya melalui parameter tertentu. Catatan Dalam banyak kasus, proses ini memerlukan node penetapan atau parameter penjadwalan.
|
Langkah 6: Debug kode node
Anda dapat menggunakan salah satu fitur berikut untuk men-debug logika kode untuk memastikan bahwa kode yang Anda tulis benar.
Fitur | Deskripsi | Saran |
Anda dapat dengan cepat menjalankan potongan kode yang Anda pilih di tab konfigurasi node. | Anda dapat menggunakan fitur ini untuk dengan cepat menjalankan potongan kode node. | |
Bilah Alat Atas: Jalankan ( | Anda dapat memberikan konstanta ke variabel yang didefinisikan dalam kode dalam skenario pengujian tertentu. Catatan Pertama kali Anda klik ikon Jalankan untuk menjalankan node baru, Anda harus secara manual memberikan konstanta ke variabel yang didefinisikan dalam kode node di kotak dialog yang muncul. Operasi penetapan akan dicatat dalam sistem. Anda tidak perlu mengulangi operasi untuk pelaksanaan berikutnya dari node. | Anda dapat menggunakan fitur ini untuk sering men-debug kode penuh node. |
Bilah Alat Atas: Jalankan dengan Parameter ( | Anda harus memberikan konstanta ke variabel yang didefinisikan dalam kode dalam skenario pengujian tertentu setiap kali Anda klik ikon ini. | Anda dapat menggunakan fitur ini untuk memodifikasi nilai yang diberikan ke variabel dalam kode. |
Dalam contoh ini, node dijalankan pada 2022.09.07 14:00 dalam tes Jalankan dengan Parameter. Gambar berikut menunjukkan hasil pelaksanaannya.
Langkah 7: Simpan dan komit node
Setelah konfigurasi dan pengujian node selesai, simpan konfigurasi node, lalu komit node ke lingkungan pengembangan.
Anda hanya dapat mengomitmennya ke lingkungan pengembangan setelah mengonfigurasi rerun settings dan ancestor nodes untuk node di Langkah 5.
Klik ikon
di bilah alat atas untuk menyimpan node.Klik ikon
di bilah alat atas untuk mengomitmennya ke lingkungan pengembangan.
Langkah 8: Lakukan pengujian asap
Untuk memastikan bahwa node yang Anda kembangkan dapat dijalankan secara efisien dan sepenuhnya memanfaatkan sumber daya komputasi, kami sarankan Anda melakukan pengujian asap pada node sebelum mengomitmennya dan menerapkannya. Pengujian asap harus dilakukan di lingkungan pengembangan. Anda harus mengomitmennya ke lingkungan pengembangan sebelum melakukan pengujian asap pada node.
Klik ikon
di bilah alat atas. Di kotak dialog pengujian asap, tentukan cap waktu data node.Setelah pengujian asap selesai, klik ikon
di bilah alat atas untuk melihat hasil tes.
Dalam contoh ini, pengujian asap dilakukan untuk memeriksa apakah parameter penjadwalan yang dikonfigurasi memenuhi persyaratan pengguna. Node result_table dijadwalkan berjalan setiap interval 1 jam dari 00:00 hingga 23:59. Saat pengujian asap dilakukan pada node, dua instance dihasilkan. Waktu penjadwalan instance adalah 00:00 dan 01:00.
Instance pemicu otomatis adalah snapshot yang dihasilkan untuk node pemicu otomatis ketika node dijadwalkan berjalan berdasarkan siklus penjadwalan yang ditentukan.
Node
result_tabledijadwalkan per jam. Anda harus menentukan cap waktu data node untuk pengujian asap. Anda juga harus memilih waktu mulai dan waktu akhir pengujian.Untuk informasi lebih lanjut tentang cara melakukan pengujian asap di lingkungan pengembangan, lihat Lakukan Pengujian Asap.

Langkah 9: Terapkan node
Jika ruang kerja dalam mode dasar, node dapat dijadwalkan secara berkala setelah node dikomit. Jika ruang kerja dalam mode standar, node dalam keadaan tertunda setelah node dikomit. Anda harus merujuk pada operasi yang dijelaskan dalam langkah ini untuk menerapkan node. Node hanya dapat dijadwalkan secara berkala setelah diterapkan.
DataWorks hanya dapat menjadwalkan node yang diterapkan ke lingkungan produksi secara otomatis. Setelah pengujian asap selesai, komit dan terapkan node ke lingkungan produksi agar DataWorks dapat menjadwalkan node secara berkala.
Untuk informasi lebih lanjut tentang ruang kerja dalam mode dasar dan ruang kerja dalam mode standar, lihat Perbedaan antara Ruang Kerja dalam Mode Dasar dan Ruang Kerja dalam Mode Standar.
Dalam ruang kerja dalam mode standar, operasi yang dikomit di halaman DataStudio, termasuk penambahan, pembaruan, dan penghapusan node pengembangan data, sumber daya, dan fungsi, dalam keadaan tertunda di halaman Buat Tugas Penyebaran. Anda dapat klik Deploy untuk pergi ke halaman Create Deploy Task, dan menerapkan operasi terkait ke lingkungan produksi. Operasi tersebut hanya berlaku setelah diterapkan ke lingkungan produksi. Untuk informasi lebih lanjut, lihat Terapkan Node.
Tabel berikut menjelaskan item yang terkait dengan prosedur penyebaran.
Item | Deskripsi |
Kontrol penyebaran | Apakah operasi penyebaran berhasil bervariasi berdasarkan izin peran pengguna yang melakukan operasi ini dan prosedur penyebaran yang ditentukan. Catatan
|
Mode pembuatan instance | Jika Anda membuat atau memperbarui node dan menerapkan node dalam rentang waktu Catatan Batas ini berlaku pada node untuk mana parameter Mode Pembuatan Instance diatur ke Next Day atau Immediately After Deployment. Untuk informasi lebih lanjut tentang mode pembuatan instance, lihat Konfigurasikan pembuatan instance langsung untuk tugas. |
Apa yang harus dilakukan selanjutnya
Anda dapat pergi ke Operation Center dan melihat node pemicu otomatis yang diterapkan ke lingkungan produksi di halaman Auto Triggered Tasks dan melakukan operasi O&M terkait pada node. Untuk informasi lebih lanjut, lihat Lakukan Operasi O&M Dasar pada Node Pemicu Otomatis.
