All Products
Search
Document Center

DataWorks:Catatan penggunaan untuk mengembangkan tugas CDP atau CDH di DataWorks

Last Updated:Feb 25, 2026

DataWorks memungkinkan Anda membuat node seperti Hive, MR, Presto, dan Impala berdasarkan kluster Cloudera's Distribution including Apache Hadoop (CDH) dan Cloudera Data Platform (CDP). Anda dapat menggunakan DataWorks untuk mengonfigurasi alur kerja, menerapkan penjadwalan berkala, serta mengelola metadata untuk tugas CDP/CDH guna menjamin produksi dan manajemen data yang efisien serta stabil. Topik ini menjelaskan proses pengembangan dasar untuk menggunakan CDP/CDH di DataWorks serta mencakup penagihan, persiapan lingkungan, dan kontrol akses.

Informasi latar belakang

  • CDH adalah distribusi platform open source dari Cloudera yang menyediakan fitur siap pakai seperti manajemen kluster, pemantauan, dan diagnostik. CDH juga mendukung berbagai komponen untuk membantu Anda menjalankan alur kerja data besar end-to-end.

  • CDP adalah platform data publik yang mengumpulkan dan mengintegrasikan data pelanggan lintas platform, membantu Anda mengumpulkan data real-time dan membangun profil data pengguna individual.

Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk melakukan operasi pengembangan dan administrasi data sesuai kebutuhan bisnis Anda, termasuk pengembangan tugas, penjadwalan, Peta Data (manajemen metadata), dan Kualitas Data.

Batasan

  • Anda hanya dapat menjalankan tugas untuk kluster CDH atau CDP pada kelompok sumber daya Serverless (direkomendasikan) atau kelompok sumber daya eksklusif lama untuk penjadwalan.

    Catatan
    • (Direkomendasikan) Kelompok sumber daya Serverless adalah kelompok sumber daya tujuan umum yang dapat digunakan untuk berbagai jenis tugas, seperti sinkronisasi data dan penjadwalan tugas. Untuk informasi selengkapnya tentang cara membeli kelompok sumber daya Serverless, lihat Gunakan kelompok sumber daya Serverless. Jika Anda telah membeli kelompok sumber daya eksklusif lama untuk penjadwalan, Anda juga dapat menggunakannya untuk menjalankan tugas untuk kluster CDH atau CDP.

    • Pengguna baru hanya dapat membeli kelompok sumber daya Serverless.

    • Jika Anda mendaftarkan kluster dengan Custom Version ke DataWorks, Anda hanya dapat menggunakan kelompok sumber daya eksklusif lama untuk penjadwalan. Untuk informasi selengkapnya tentang versi kluster, lihat Langkah 2: Daftarkan kluster CDH atau CDP.

  • Anda hanya dapat mendaftarkan kluster CDH atau CDP di wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Hangzhou), Tiongkok (Shenzhen), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).

Prasyarat

  • Anda telah mengaktifkan DataWorks. Untuk informasi selengkapnya, lihat Beli.

  • Anda telah men-deploy dan mendaftarkan kluster CDP atau CDH.

    DataWorks mendukung kluster CDP atau CDH yang tidak dideploy di lingkungan Alibaba Cloud ECS. Namun, Anda harus memastikan bahwa lingkungan tempat kluster CDP atau CDH dideploy dapat terhubung ke virtual private cloud (VPC) Alibaba Cloud. Anda dapat menggunakan solusi jaringan seperti Express Connect atau VPN untuk membangun konektivitas. Untuk informasi selengkapnya, lihat Pengembangan Data (Legacy): Bind a CDH compute resource.

  • Anda telah membeli kelompok sumber daya Serverless.

    Secara default, kelompok sumber daya Serverless tidak dapat terhubung ke jaringan produk cloud lain setelah dibeli. Sebelum menghubungkannya ke kluster CDP atau CDH, Anda harus membangun konektivitas jaringan antara kluster dan kelompok sumber daya Serverless. Untuk informasi selengkapnya tentang cara membeli kelompok sumber daya, lihat Gunakan kelompok sumber daya Serverless.

  • Anda telah membuat ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Konfigurasi ruang kerja.

Petunjuk penggunaan

Tabel berikut menjelaskan proses pengembangan untuk menggunakan DataWorks dengan CDP/CDH.

Nomor Urut

Deskripsi

Penagihan

Saat Anda mengembangkan tugas CDP atau CDH di DataWorks, biaya akan dikenakan untuk DataWorks dan produk terkait lainnya.

Persiapan lingkungan

Sebelum mengembangkan tugas CDP atau CDH di DataWorks, Anda harus membeli edisi DataWorks dan kelompok sumber daya yang diperlukan, mendaftarkan kluster CDP atau CDH, serta menyiapkan lingkungan pengembangan.

Kontrol akses

DataWorks menyediakan kontrol akses tingkat produk dan tingkat modul. Anda dapat memberikan izin berbeda kepada pengguna berbeda untuk menerapkan pengelolaan izin detail halus.

Memulai integrasi data

Data Integration DataWorks memungkinkan Anda membaca dan menulis data ke/dari Hive CDP/CDH. Fitur ini mendukung berbagai skenario sinkronisasi data, seperti sinkronisasi offline, penuh, dan inkremental.

Memulai pengembangan data dan O&M

DataWorks menyediakan layanan Data Modeling yang digunakan untuk menyusun dan mengelola volume besar data yang tidak terstruktur dan kompleks. DataWorks juga menyediakan layanan DataStudio untuk pengembangan tugas yang dijadwalkan berjalan. Setelah tugas dikembangkan, Anda dapat membuka Operation Center untuk memantau dan melakukan operasi O&M pada tugas tersebut.

Memulai tata kelola data

DataWorks menyediakan kemampuan manajemen metadata dan tata kelola data untuk CDP dan CDH.

Memulai analisis dan layanan data

DataAnalysis DataWorks menyediakan kemampuan analisis data dan berbagi layanan untuk CDP dan CDH.

Memulai Open Platform

DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda terintegrasi dengan cepat ke DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses terkait data, mengatur tata kelola data, melakukan operasi O&M pada data, dan merespons perubahan status bisnis di sistem aplikasi secara cepat.

Penagihan

1. Biaya untuk sumber daya DataWorks

Bagian ini menjelaskan biaya yang termasuk dalam tagihan DataWorks Anda. Untuk informasi tentang item yang dapat ditagih DataWorks, lihat Ikhtisar penagihan.

Biaya

Deskripsi

Biaya untuk edisi DataWorks yang Anda gunakan

Anda harus mengaktifkan DataWorks sebelum dapat mengembangkan tugas di DataWorks. Jika Anda mengaktifkan DataWorks Edisi Standar, DataWorks Edisi Profesional, atau DataWorks Edisi Perusahaan, Anda akan dikenai biaya edisi tersebut saat membelinya.

Biaya untuk sumber daya penjadwalan yang Anda gunakan untuk menjadwalkan tugas

Setelah tugas dikembangkan, diperlukan sumber daya penjadwalan untuk menjadwalkan tugas tersebut. Anda dapat membeli kelompok sumber daya serverless atau kelompok sumber daya eksklusif versi lama untuk penjadwalan, dan membayar kelompok sumber daya tersebut. Kami merekomendasikan Anda membeli kelompok sumber daya serverless.

Catatan

Kelompok sumber daya serverless yang dibeli dapat digunakan untuk penjadwalan tugas dan sinkronisasi data.

Biaya untuk sumber daya yang Anda gunakan untuk menyinkronkan data

Tugas sinkronisasi data mengonsumsi sumber daya penjadwalan dan sumber daya sinkronisasi. Anda dapat membeli kelompok sumber daya serverless atau kelompok sumber daya eksklusif versi lama untuk Integrasi Data, dan membayar kelompok sumber daya tersebut. Kami merekomendasikan Anda membeli kelompok sumber daya serverless.

Catatan
  • Anda tidak dikenai biaya penjadwalan jika menjalankan tugas pada node dengan mengklik Run atau Run with Parameters di bilah alat atas halaman DataStudio.

  • Anda tidak dikenai biaya penjadwalan untuk tugas yang gagal atau tugas dry-run.

Untuk informasi selengkapnya yang membantu Anda memahami rincian penagihan, lihat Logika penerbitan tugas penjadwalan di DataWorks.

2. Biaya yang tidak terkait dengan DataWorks

Biaya berikut tidak termasuk dalam tagihan DataWorks Anda.

Penting

Biaya yang melibatkan produk lain ditentukan oleh aturan penagihan produk tersebut. Untuk informasi selengkapnya, lihat dokumentasi penagihan produk terkait atau Penagihan Produk.

Biaya

Deskripsi

Biaya database

Saat Anda membaca atau menulis data ke database hulu dan hilir selama sinkronisasi data, biaya database mungkin dikenakan.

Biaya komputasi dan penyimpanan

Saat Anda menjalankan tugas mesin komputasi, biaya komputasi dan penyimpanan untuk mesin komputasi tersebut mungkin dikenakan.

Biaya layanan jaringan

Saat Anda menghubungkan lingkungan jaringan DataWorks dan produk terkait lainnya, biaya layanan jaringan mungkin dikenakan. Misalnya, jika Anda menggunakan produk seperti Express Connect, Bandwidth Internet Bersama, atau EIP untuk menghubungkan jaringan, biaya layanan untuk produk tersebut akan dikenakan.

Persiapan lingkungan

1. Persiapan sumber daya

Kategori

Deskripsi

Referensi

Pemilihan edisi

DataWorks Edisi Dasar dapat memenuhi kebutuhan dasar untuk migrasi data ke cloud, pengembangan dan penjadwalan data, serta tata kelola data sederhana untuk CDP atau CDH. Jika Anda memerlukan solusi profesional lebih lanjut untuk tata kelola data dan keamanan data, Anda dapat memilih Edisi Standar, Edisi Profesional, atau Edisi Perusahaan.

Fitur edisi DataWorks yang berbeda

Pemilihan kelompok sumber daya

Kluster CDP atau CDH saat ini mendukung kelompok sumber daya Serverless (direkomendasikan) atau kelompok sumber daya eksklusif versi sebelumnya untuk penjadwalan.

Gunakan kelompok sumber daya Serverless

2. Persiapan lingkungan pengembangan

Anda harus mendaftarkan kluster CDP atau CDH di ruang kerja DataWorks. Kemudian, Anda dapat melakukan pengembangan data di DataStudio dan mengelola anggota ruang kerja untuk pengembangan kolaboratif.

Kategori

Deskripsi

Referensi

Persiapan lingkungan sinkronisasi data

Sebelum menjalankan tugas sinkronisasi data berdasarkan komponen Hive kluster, Anda harus terlebih dahulu membuat komponen tersebut sebagai sumber data DataWorks.

Sumber data yang didukung dan solusi sinkronisasi

Persiapan lingkungan pengembangan dan analisis data

Sebelum menggunakan DataWorks untuk menjadwalkan tugas mesin komputasi secara berkala, Anda harus menambahkan kluster ke DataWorks. Setelah kluster ditambahkan, Anda dapat menggunakannya untuk pengembangan data, analisis data, dan penjadwalan tugas berkala.

Pengembangan Data (Legacy): Bind a CDH compute resource

Persiapan lingkungan pengembangan kolaboratif

Untuk memastikan bahwa pengguna Manajemen Akses Sumber Daya (RAM) dapat berkolaborasi dalam ruang kerja, lakukan operasi berikut:

  • Tambahkan pengguna RAM yang perlu berkolaborasi ke ruang kerja saat ini sebagai anggota dan berikan mereka role Developer.

  • Tambahkan anggota ruang kerja ke lingkungan kluster CDP atau CDH.

Tambahkan anggota ke ruang kerja

Kontrol akses

DataWorks menyediakan kontrol akses tingkat produk dan tingkat modul. Anda dapat memberikan izin berbeda kepada pengguna berbeda. Bagian berikut menjelaskan kontrol akses.

1. Kontrol akses data

Anda dapat mengonfigurasi pemetaan akun kluster untuk pengguna RAM yang ditambahkan ke ruang kerja DataWorks untuk pengembangan tugas CDP atau CDH. Hal ini memberikan anggota ruang kerja (pengguna RAM) izin akun kluster yang dipetakan. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster.

2. Kontrol akses modul fitur

Sebelum memulai pengembangan data, lihat Panduan otorisasi pengguna RAM untuk mempelajari cara memberikan izin operasi berbeda. Jenis izin tersebut adalah sebagai berikut:

  • Gunakan kontrol akses modul global untuk mengelola izin modul fitur DataWorks (seperti melarang pengguna mengakses Peta Data) dan konsol DataWorks (seperti mengizinkan pengguna menghapus ruang kerja).

  • Gunakan kontrol akses modul tingkat ruang kerja untuk mengelola izin modul tingkat ruang kerja DataWorks (seperti mengizinkan pengguna mengakses Pengembangan Data untuk melakukan operasi pengembangan) dan modul global (seperti menolak akses pengguna ke modul Penjaga Keamanan Data).

Memulai

DataWorks menyediakan beberapa modul fitur. Anda dapat mengembangkan tugas penjadwalan di DataStudio. Setelah pengembangan, Anda dapat menggunakan Operation Center untuk memantau dan memelihara tugas penjadwalan tersebut. DataWorks juga menyediakan kontrol proses untuk pengembangan dan penerapan tugas guna membantu Anda menstandarisasi operasi pengembangan dan memastikan keamanan.

1. Integrasi data

Modul Data Integration DataWorks memungkinkan Anda membaca dan menulis data ke/dari Hive CDP/CDH dan HBase CDP/CDH. Anda harus membuat komponen Hive atau HBase sebagai sumber data Hive atau HBase DataWorks. Hal ini memungkinkan Anda menyinkronkan data dari sumber data lain ke sumber data Hive atau HBase, atau dari sumber data Hive atau HBase ke sumber data lain. Anda juga dapat melakukan sinkronisasi data untuk skenario seperti sinkronisasi offline, penuh, dan inkremental. Untuk informasi selengkapnya, lihat Integrasi Data.

2. Pengembangan data dan O&M

Modul

Deskripsi

Referensi

Data modeling

Data Modeling adalah langkah pertama untuk tata kelola data end-to-end. Data Modeling menggunakan metodologi pemodelan mid-end data Alibaba, menginterpretasikan data bisnis perusahaan dari perspektif bisnis melalui perencanaan gudang data, standar data, pemodelan dimensional, dan modul metrik data, serta memungkinkan personel di dalam perusahaan memahami dan berbagi gagasan mengukur serta menginterpretasikan data bisnis sesuai spesifikasi gudang data dengan cepat.

Pemodelan data

Data Development

DataWorks mengenkapsulasi kemampuan mesin komputasi CDP atau CDH. Hal ini memungkinkan Anda menjalankan tugas sinkronisasi data dan pengembangan data untuk CDP atau CDH.

  • Sinkronisasi data: Data Development hanya mendukung beberapa skenario sinkronisasi offline dan real-time. Untuk aplikasi sinkronisasi data lebih lanjut, gunakan modul Integrasi Data.

  • Pengembangan data: Anda dapat mengembangkan berbagai tugas dan menerapkan penjadwalan berkala di DataWorks tanpa menggunakan command line yang kompleks.

Anda dapat menggabungkan node tujuan umum dan node mesin komputasi di DataWorks untuk menangani logika kompleks.

Node utama adalah sebagai berikut:

  • Node zero load yang digunakan untuk mengelola workflow

  • Node HTTP Trigger yang digunakan dalam skenario di mana sistem penjadwalan eksternal digunakan untuk memicu penjadwalan node di DataWorks, node inspeksi objek OSS, dan node FTP Check

  • Node Assignment yang digunakan untuk meneruskan parameter input dan output untuk node, serta node parameter

  • Node do-while yang digunakan untuk mengeksekusi kode node dalam loop, node for-each yang digunakan untuk melintasi output node assignment dalam loop dan menilai output tersebut, serta node branch

  • Node lainnya, seperti node Shell umum dan node database MySQL

Setelah mengembangkan tugas node, Anda dapat melakukan operasi berikut:

  • Konfigurasikan properti penjadwalan untuk node

    Jika Anda ingin DataWorks menjalankan tugas Anda secara berkala pada node, Anda harus mengonfigurasi properti penjadwalan untuk node tersebut, seperti dependensi penjadwalan dan parameter penjadwalan.

  • Debug node

    Untuk memastikan tugas pada node di lingkungan produksi berjalan secara efisien dan mencegah pemborosan sumber daya komputasi, kami merekomendasikan Anda melakukan debug dan menjalankan tugas sebelum menerapkannya.

  • Terapkan node

    Tugas pada node hanya dapat dijadwalkan untuk berjalan setelah diterapkan ke lingkungan produksi. Oleh karena itu, setelah tugas dikembangkan, Anda harus menerapkannya ke lingkungan produksi. Setelah tugas diterapkan, Anda dapat melihat dan mengelolanya di halaman Auto Triggered Nodes di Operation Center.

  • Kelola node

    Anda dapat melakukan berbagai operasi pada tugas pada node, seperti menerapkan dan membatalkan penerapan tugas, serta memodifikasi properti penjadwalan untuk beberapa tugas sekaligus.

  • Lakukan manajemen proses

    DataWorks menyediakan kontrol proses untuk pengembangan dan penerapan tugas guna memastikan keakuratan dan keamanan operasi yang dilakukan pada tugas. Misalnya, DataWorks menyediakan fitur tinjauan kode, pengujian asap wajib, dan kustomisasi logika tinjauan kode.

Operation Center

Operation Center adalah platform O&M dan pemantauan data besar end-to-end. Operation Center memungkinkan Anda melihat status tugas dan melakukan operasi O&M pada tugas yang mengalami exception. Misalnya, Anda dapat melakukan diagnostik cerdas dan menjalankan ulang tugas di Operation Center. Operation Center menyediakan fitur garis dasar cerdas yang dapat Anda gunakan untuk mengatasi masalah seperti waktu output tugas penting yang tidak terkendali dan kesulitan dalam pemantauan tugas dalam jumlah besar. Fitur ini membantu Anda memastikan ketepatan waktu output tugas.

Lakukan operasi O&M dasar pada node yang dipicu otomatis

Data Quality

Data Quality menjamin ketersediaan data untuk proses R&D data end-to-end dan menyediakan data andal untuk bisnis Anda secara efisien. Data Quality dapat membantu Anda mengidentifikasi masalah kualitas data sedini mungkin dan mencegah eskalasi masalah kualitas data melalui pemeriksaan kualitas berbasis aturan pemantauan yang efektif serta kombinasi aturan pemantauan dan proses penjadwalan tugas.

Ikhtisar Data Quality

3. Tata kelola data

Setelah kluster CDP/CDH didaftarkan, DataWorks secara otomatis mengumpulkan metadata dari sumber data Anda. Anda dapat melihat metadata tersebut di Peta Data. Anda juga dapat menggunakan Pusat Tata Kelola Data untuk melihat masalah yang terdeteksi DataWorks dan melakukan tata kelola data.

Modul

Deskripsi

Referensi

Data Map

Data Map DataWorks menyediakan platform manajemen data tingkat perusahaan. Berdasarkan fondasi metadata terpadu, platform ini menyediakan kemampuan untuk mengelola dan menginventarisasi objek data, melihat lineage, serta mencari dan memahami objek data secara cepat dan mendalam.

Catatan

Saat ini, lineage tingkat tabel dan bidang ditampilkan untuk node CDH Hive, CDH Spark, CDH Spark SQL, dan CDH Impala. Untuk informasi selengkapnya, lihat Tampilan lineage untuk sumber data berbeda.

Ikhtisar Data Map

Security Center

Data Security Guard

Approval Center

Security Center, Data Security Guard, dan Approval Center menyediakan antarmuka tata kelola keamanan data satu atap. Antarmuka ini mengintegrasikan klasifikasi aset data, deteksi data sensitif, manajemen otorisasi data, penyembunyian data sensitif, audit akses data sensitif, serta pendeteksian dan respons terhadap penipuan. Hal ini membantu pengguna menerapkan tata kelola keamanan data.

Catatan

Approval Center tidak mendukung alur persetujuan kustom untuk tabel CDH/CDP.

Data Governance Center

Data Governance Center membantu pengguna melakukan tata kelola data proaktif dan sistematis. Pusat ini mencakup berbagai ranah tata kelola dengan menetapkan aturan ranah data, mendeteksi aset yang perlu dioptimalkan secara otomatis, serta menyediakan kebijakan tata kelola dan optimasi pra-kejadian dan pasca-kejadian.

Catatan

Anda hanya dapat menggunakan item pemeriksaan global dan item tata kelola di Data Governance Center untuk mengatasi masalah data di CDH/CDP. Fitur aktual dapat berbeda.

Ikhtisar Data Governance Center

4. Analisis dan layanan data

DataAnalysis dan DataService Studio dirancang untuk menyediakan kemampuan pemrosesan dan analisis data bagi perusahaan serta membantu perusahaan menggunakan API yang dikelola secara terpadu untuk mengakses dan berbagi data.

Modul

Deskripsi

Referensi

DataAnalysis

Modul DataAnalysis DataWorks membantu Anda melakukan analisis berbasis SQL secara online, memahami kebutuhan bisnis, mengedit dan berbagi data, serta memungkinkan Anda menyimpan hasil kueri sebagai kartu grafik dan dengan cepat menghasilkan laporan data visual berdasarkan kartu grafik tersebut untuk pelaporan harian.

Untuk informasi selengkapnya, lihat Ikhtisar DataAnalysis.

DataService Studio

DataService Studio dirancang untuk menyediakan kemampuan layanan dan berbagi data komprehensif bagi perusahaan serta membantu perusahaan mengelola layanan API untuk sistem internal dan eksternal secara terpusat.

Untuk informasi selengkapnya, lihat Ikhtisar DataService Studio.

5. Open Platform

DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda terintegrasi dengan cepat ke DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses terkait data, mengatur tata kelola data, melakukan operasi O&M pada data, dan merespons perubahan status bisnis di sistem aplikasi secara cepat.

Item

Deskripsi

Referensi

OpenAPI

Modul OpenAPI memungkinkan Anda memanggil operasi API DataWorks sehingga Anda dapat mengintegrasikan aplikasi Anda dengan DataWorks. Hal ini dapat membantu memfasilitasi pemrosesan data besar, mengurangi operasi manual dan O&M, meminimalkan risiko data, serta mengurangi biaya bagi perusahaan.

Open API

OpenEvent

Modul OpenEvent memungkinkan Anda berlangganan event perubahan DataWorks yang terkait dengan aplikasi Anda sehingga Anda dapat mendeteksi dan merespons perubahan tersebut sedini mungkin.

Ikhtisar OpenEvent

Extensions

Anda dapat menggunakan modul OpenEvent untuk berlangganan pesan event yang dihasilkan di ruang kerja DataWorks Anda. Anda dapat menggunakan modul Extensions untuk mendaftarkan program lokal Anda sebagai ekstensi guna mengelola event dan proses titik ekstensi.

Ikhtisar Extensions