DataWorks memungkinkan Anda membuat node seperti Hive, MR, Presto, dan Impala berdasarkan kluster Cloudera's Distribution including Apache Hadoop (CDH) dan Cloudera Data Platform (CDP). Anda dapat menggunakan DataWorks untuk mengonfigurasi alur kerja, menerapkan penjadwalan berkala, serta mengelola metadata untuk tugas CDP/CDH guna menjamin produksi dan manajemen data yang efisien serta stabil. Topik ini menjelaskan proses pengembangan dasar untuk menggunakan CDP/CDH di DataWorks serta mencakup penagihan, persiapan lingkungan, dan kontrol akses.
Informasi latar belakang
CDH adalah distribusi platform open source dari Cloudera yang menyediakan fitur siap pakai seperti manajemen kluster, pemantauan, dan diagnostik. CDH juga mendukung berbagai komponen untuk membantu Anda menjalankan alur kerja data besar end-to-end.
CDP adalah platform data publik yang mengumpulkan dan mengintegrasikan data pelanggan lintas platform, membantu Anda mengumpulkan data real-time dan membangun profil data pengguna individual.
Anda dapat mendaftarkan kluster CDH dan CDP di DataWorks untuk melakukan operasi pengembangan dan administrasi data sesuai kebutuhan bisnis Anda, termasuk pengembangan tugas, penjadwalan, Peta Data (manajemen metadata), dan Kualitas Data.
Batasan
Anda hanya dapat menjalankan tugas untuk kluster CDH atau CDP pada kelompok sumber daya Serverless (direkomendasikan) atau kelompok sumber daya eksklusif lama untuk penjadwalan.
Catatan(Direkomendasikan) Kelompok sumber daya Serverless adalah kelompok sumber daya tujuan umum yang dapat digunakan untuk berbagai jenis tugas, seperti sinkronisasi data dan penjadwalan tugas. Untuk informasi selengkapnya tentang cara membeli kelompok sumber daya Serverless, lihat Gunakan kelompok sumber daya Serverless. Jika Anda telah membeli kelompok sumber daya eksklusif lama untuk penjadwalan, Anda juga dapat menggunakannya untuk menjalankan tugas untuk kluster CDH atau CDP.
Pengguna baru hanya dapat membeli kelompok sumber daya Serverless.
Jika Anda mendaftarkan kluster dengan Custom Version ke DataWorks, Anda hanya dapat menggunakan kelompok sumber daya eksklusif lama untuk penjadwalan. Untuk informasi selengkapnya tentang versi kluster, lihat Langkah 2: Daftarkan kluster CDH atau CDP.
Anda hanya dapat mendaftarkan kluster CDH atau CDP di wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Hangzhou), Tiongkok (Shenzhen), Tiongkok (Zhangjiakou), Tiongkok (Chengdu), dan Jerman (Frankfurt).
Prasyarat
Anda telah mengaktifkan DataWorks. Untuk informasi selengkapnya, lihat Beli.
Anda telah men-deploy dan mendaftarkan kluster CDP atau CDH.
DataWorks mendukung kluster CDP atau CDH yang tidak dideploy di lingkungan Alibaba Cloud ECS. Namun, Anda harus memastikan bahwa lingkungan tempat kluster CDP atau CDH dideploy dapat terhubung ke virtual private cloud (VPC) Alibaba Cloud. Anda dapat menggunakan solusi jaringan seperti Express Connect atau VPN untuk membangun konektivitas. Untuk informasi selengkapnya, lihat Pengembangan Data (Legacy): Bind a CDH compute resource.
Anda telah membeli kelompok sumber daya Serverless.
Secara default, kelompok sumber daya Serverless tidak dapat terhubung ke jaringan produk cloud lain setelah dibeli. Sebelum menghubungkannya ke kluster CDP atau CDH, Anda harus membangun konektivitas jaringan antara kluster dan kelompok sumber daya Serverless. Untuk informasi selengkapnya tentang cara membeli kelompok sumber daya, lihat Gunakan kelompok sumber daya Serverless.
Anda telah membuat ruang kerja DataWorks. Untuk informasi selengkapnya, lihat Konfigurasi ruang kerja.
Petunjuk penggunaan
Tabel berikut menjelaskan proses pengembangan untuk menggunakan DataWorks dengan CDP/CDH.
Nomor Urut | Deskripsi |
Saat Anda mengembangkan tugas CDP atau CDH di DataWorks, biaya akan dikenakan untuk DataWorks dan produk terkait lainnya. | |
Sebelum mengembangkan tugas CDP atau CDH di DataWorks, Anda harus membeli edisi DataWorks dan kelompok sumber daya yang diperlukan, mendaftarkan kluster CDP atau CDH, serta menyiapkan lingkungan pengembangan. | |
DataWorks menyediakan kontrol akses tingkat produk dan tingkat modul. Anda dapat memberikan izin berbeda kepada pengguna berbeda untuk menerapkan pengelolaan izin detail halus. | |
Data Integration DataWorks memungkinkan Anda membaca dan menulis data ke/dari Hive CDP/CDH. Fitur ini mendukung berbagai skenario sinkronisasi data, seperti sinkronisasi offline, penuh, dan inkremental. | |
DataWorks menyediakan layanan Data Modeling yang digunakan untuk menyusun dan mengelola volume besar data yang tidak terstruktur dan kompleks. DataWorks juga menyediakan layanan DataStudio untuk pengembangan tugas yang dijadwalkan berjalan. Setelah tugas dikembangkan, Anda dapat membuka Operation Center untuk memantau dan melakukan operasi O&M pada tugas tersebut. | |
DataWorks menyediakan kemampuan manajemen metadata dan tata kelola data untuk CDP dan CDH. | |
DataAnalysis DataWorks menyediakan kemampuan analisis data dan berbagi layanan untuk CDP dan CDH. | |
DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda terintegrasi dengan cepat ke DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses terkait data, mengatur tata kelola data, melakukan operasi O&M pada data, dan merespons perubahan status bisnis di sistem aplikasi secara cepat. |
Penagihan
1. Biaya untuk sumber daya DataWorks
Bagian ini menjelaskan biaya yang termasuk dalam tagihan DataWorks Anda. Untuk informasi tentang item yang dapat ditagih DataWorks, lihat Ikhtisar penagihan.
Biaya | Deskripsi |
Biaya untuk edisi DataWorks yang Anda gunakan | Anda harus mengaktifkan DataWorks sebelum dapat mengembangkan tugas di DataWorks. Jika Anda mengaktifkan DataWorks Edisi Standar, DataWorks Edisi Profesional, atau DataWorks Edisi Perusahaan, Anda akan dikenai biaya edisi tersebut saat membelinya. |
Biaya untuk sumber daya penjadwalan yang Anda gunakan untuk menjadwalkan tugas | Setelah tugas dikembangkan, diperlukan sumber daya penjadwalan untuk menjadwalkan tugas tersebut. Anda dapat membeli kelompok sumber daya serverless atau kelompok sumber daya eksklusif versi lama untuk penjadwalan, dan membayar kelompok sumber daya tersebut. Kami merekomendasikan Anda membeli kelompok sumber daya serverless. Catatan Kelompok sumber daya serverless yang dibeli dapat digunakan untuk penjadwalan tugas dan sinkronisasi data. |
Biaya untuk sumber daya yang Anda gunakan untuk menyinkronkan data | Tugas sinkronisasi data mengonsumsi sumber daya penjadwalan dan sumber daya sinkronisasi. Anda dapat membeli kelompok sumber daya serverless atau kelompok sumber daya eksklusif versi lama untuk Integrasi Data, dan membayar kelompok sumber daya tersebut. Kami merekomendasikan Anda membeli kelompok sumber daya serverless. |
Anda tidak dikenai biaya penjadwalan jika menjalankan tugas pada node dengan mengklik Run atau Run with Parameters di bilah alat atas halaman DataStudio.
Anda tidak dikenai biaya penjadwalan untuk tugas yang gagal atau tugas dry-run.
Untuk informasi selengkapnya yang membantu Anda memahami rincian penagihan, lihat Logika penerbitan tugas penjadwalan di DataWorks.
2. Biaya yang tidak terkait dengan DataWorks
Biaya berikut tidak termasuk dalam tagihan DataWorks Anda.
Biaya yang melibatkan produk lain ditentukan oleh aturan penagihan produk tersebut. Untuk informasi selengkapnya, lihat dokumentasi penagihan produk terkait atau Penagihan Produk.
Biaya | Deskripsi |
Biaya database | Saat Anda membaca atau menulis data ke database hulu dan hilir selama sinkronisasi data, biaya database mungkin dikenakan. |
Biaya komputasi dan penyimpanan | Saat Anda menjalankan tugas mesin komputasi, biaya komputasi dan penyimpanan untuk mesin komputasi tersebut mungkin dikenakan. |
Biaya layanan jaringan | Saat Anda menghubungkan lingkungan jaringan DataWorks dan produk terkait lainnya, biaya layanan jaringan mungkin dikenakan. Misalnya, jika Anda menggunakan produk seperti Express Connect, Bandwidth Internet Bersama, atau EIP untuk menghubungkan jaringan, biaya layanan untuk produk tersebut akan dikenakan. |
Persiapan lingkungan
1. Persiapan sumber daya
Kategori | Deskripsi | Referensi |
Pemilihan edisi | DataWorks Edisi Dasar dapat memenuhi kebutuhan dasar untuk migrasi data ke cloud, pengembangan dan penjadwalan data, serta tata kelola data sederhana untuk CDP atau CDH. Jika Anda memerlukan solusi profesional lebih lanjut untuk tata kelola data dan keamanan data, Anda dapat memilih Edisi Standar, Edisi Profesional, atau Edisi Perusahaan. | |
Pemilihan kelompok sumber daya | Kluster CDP atau CDH saat ini mendukung kelompok sumber daya Serverless (direkomendasikan) atau kelompok sumber daya eksklusif versi sebelumnya untuk penjadwalan. |
2. Persiapan lingkungan pengembangan
Anda harus mendaftarkan kluster CDP atau CDH di ruang kerja DataWorks. Kemudian, Anda dapat melakukan pengembangan data di DataStudio dan mengelola anggota ruang kerja untuk pengembangan kolaboratif.
Kategori | Deskripsi | Referensi |
Persiapan lingkungan sinkronisasi data | Sebelum menjalankan tugas sinkronisasi data berdasarkan komponen Hive kluster, Anda harus terlebih dahulu membuat komponen tersebut sebagai sumber data DataWorks. | |
Persiapan lingkungan pengembangan dan analisis data | Sebelum menggunakan DataWorks untuk menjadwalkan tugas mesin komputasi secara berkala, Anda harus menambahkan kluster ke DataWorks. Setelah kluster ditambahkan, Anda dapat menggunakannya untuk pengembangan data, analisis data, dan penjadwalan tugas berkala. | |
Persiapan lingkungan pengembangan kolaboratif | Untuk memastikan bahwa pengguna Manajemen Akses Sumber Daya (RAM) dapat berkolaborasi dalam ruang kerja, lakukan operasi berikut:
|
Kontrol akses
DataWorks menyediakan kontrol akses tingkat produk dan tingkat modul. Anda dapat memberikan izin berbeda kepada pengguna berbeda. Bagian berikut menjelaskan kontrol akses.
1. Kontrol akses data
Anda dapat mengonfigurasi pemetaan akun kluster untuk pengguna RAM yang ditambahkan ke ruang kerja DataWorks untuk pengembangan tugas CDP atau CDH. Hal ini memberikan anggota ruang kerja (pengguna RAM) izin akun kluster yang dipetakan. Untuk informasi selengkapnya, lihat Konfigurasi pemetaan identitas kluster.
2. Kontrol akses modul fitur
Sebelum memulai pengembangan data, lihat Panduan otorisasi pengguna RAM untuk mempelajari cara memberikan izin operasi berbeda. Jenis izin tersebut adalah sebagai berikut:
Gunakan kontrol akses modul global untuk mengelola izin modul fitur DataWorks (seperti melarang pengguna mengakses Peta Data) dan konsol DataWorks (seperti mengizinkan pengguna menghapus ruang kerja).
Gunakan kontrol akses modul tingkat ruang kerja untuk mengelola izin modul tingkat ruang kerja DataWorks (seperti mengizinkan pengguna mengakses Pengembangan Data untuk melakukan operasi pengembangan) dan modul global (seperti menolak akses pengguna ke modul Penjaga Keamanan Data).
Memulai
DataWorks menyediakan beberapa modul fitur. Anda dapat mengembangkan tugas penjadwalan di DataStudio. Setelah pengembangan, Anda dapat menggunakan Operation Center untuk memantau dan memelihara tugas penjadwalan tersebut. DataWorks juga menyediakan kontrol proses untuk pengembangan dan penerapan tugas guna membantu Anda menstandarisasi operasi pengembangan dan memastikan keamanan.
1. Integrasi data
Modul Data Integration DataWorks memungkinkan Anda membaca dan menulis data ke/dari Hive CDP/CDH dan HBase CDP/CDH. Anda harus membuat komponen Hive atau HBase sebagai sumber data Hive atau HBase DataWorks. Hal ini memungkinkan Anda menyinkronkan data dari sumber data lain ke sumber data Hive atau HBase, atau dari sumber data Hive atau HBase ke sumber data lain. Anda juga dapat melakukan sinkronisasi data untuk skenario seperti sinkronisasi offline, penuh, dan inkremental. Untuk informasi selengkapnya, lihat Integrasi Data.
2. Pengembangan data dan O&M
Modul | Deskripsi | Referensi |
Data modeling | Data Modeling adalah langkah pertama untuk tata kelola data end-to-end. Data Modeling menggunakan metodologi pemodelan mid-end data Alibaba, menginterpretasikan data bisnis perusahaan dari perspektif bisnis melalui perencanaan gudang data, standar data, pemodelan dimensional, dan modul metrik data, serta memungkinkan personel di dalam perusahaan memahami dan berbagi gagasan mengukur serta menginterpretasikan data bisnis sesuai spesifikasi gudang data dengan cepat. | |
Data Development | DataWorks mengenkapsulasi kemampuan mesin komputasi CDP atau CDH. Hal ini memungkinkan Anda menjalankan tugas sinkronisasi data dan pengembangan data untuk CDP atau CDH.
| |
Anda dapat menggabungkan node tujuan umum dan node mesin komputasi di DataWorks untuk menangani logika kompleks. Node utama adalah sebagai berikut:
| ||
Setelah mengembangkan tugas node, Anda dapat melakukan operasi berikut:
| ||
Operation Center | Operation Center adalah platform O&M dan pemantauan data besar end-to-end. Operation Center memungkinkan Anda melihat status tugas dan melakukan operasi O&M pada tugas yang mengalami exception. Misalnya, Anda dapat melakukan diagnostik cerdas dan menjalankan ulang tugas di Operation Center. Operation Center menyediakan fitur garis dasar cerdas yang dapat Anda gunakan untuk mengatasi masalah seperti waktu output tugas penting yang tidak terkendali dan kesulitan dalam pemantauan tugas dalam jumlah besar. Fitur ini membantu Anda memastikan ketepatan waktu output tugas. | |
Data Quality | Data Quality menjamin ketersediaan data untuk proses R&D data end-to-end dan menyediakan data andal untuk bisnis Anda secara efisien. Data Quality dapat membantu Anda mengidentifikasi masalah kualitas data sedini mungkin dan mencegah eskalasi masalah kualitas data melalui pemeriksaan kualitas berbasis aturan pemantauan yang efektif serta kombinasi aturan pemantauan dan proses penjadwalan tugas. |
3. Tata kelola data
Setelah kluster CDP/CDH didaftarkan, DataWorks secara otomatis mengumpulkan metadata dari sumber data Anda. Anda dapat melihat metadata tersebut di Peta Data. Anda juga dapat menggunakan Pusat Tata Kelola Data untuk melihat masalah yang terdeteksi DataWorks dan melakukan tata kelola data.
Modul | Deskripsi | Referensi |
Data Map | Data Map DataWorks menyediakan platform manajemen data tingkat perusahaan. Berdasarkan fondasi metadata terpadu, platform ini menyediakan kemampuan untuk mengelola dan menginventarisasi objek data, melihat lineage, serta mencari dan memahami objek data secara cepat dan mendalam. Catatan Saat ini, lineage tingkat tabel dan bidang ditampilkan untuk node CDH Hive, CDH Spark, CDH Spark SQL, dan CDH Impala. Untuk informasi selengkapnya, lihat Tampilan lineage untuk sumber data berbeda. | |
Security Center Data Security Guard Approval Center | Security Center, Data Security Guard, dan Approval Center menyediakan antarmuka tata kelola keamanan data satu atap. Antarmuka ini mengintegrasikan klasifikasi aset data, deteksi data sensitif, manajemen otorisasi data, penyembunyian data sensitif, audit akses data sensitif, serta pendeteksian dan respons terhadap penipuan. Hal ini membantu pengguna menerapkan tata kelola keamanan data. Catatan Approval Center tidak mendukung alur persetujuan kustom untuk tabel CDH/CDP. | |
Data Governance Center | Data Governance Center membantu pengguna melakukan tata kelola data proaktif dan sistematis. Pusat ini mencakup berbagai ranah tata kelola dengan menetapkan aturan ranah data, mendeteksi aset yang perlu dioptimalkan secara otomatis, serta menyediakan kebijakan tata kelola dan optimasi pra-kejadian dan pasca-kejadian. Catatan Anda hanya dapat menggunakan item pemeriksaan global dan item tata kelola di Data Governance Center untuk mengatasi masalah data di CDH/CDP. Fitur aktual dapat berbeda. |
4. Analisis dan layanan data
DataAnalysis dan DataService Studio dirancang untuk menyediakan kemampuan pemrosesan dan analisis data bagi perusahaan serta membantu perusahaan menggunakan API yang dikelola secara terpadu untuk mengakses dan berbagi data.
Modul | Deskripsi | Referensi |
DataAnalysis | Modul DataAnalysis DataWorks membantu Anda melakukan analisis berbasis SQL secara online, memahami kebutuhan bisnis, mengedit dan berbagi data, serta memungkinkan Anda menyimpan hasil kueri sebagai kartu grafik dan dengan cepat menghasilkan laporan data visual berdasarkan kartu grafik tersebut untuk pelaporan harian. | Untuk informasi selengkapnya, lihat Ikhtisar DataAnalysis. |
DataService Studio | DataService Studio dirancang untuk menyediakan kemampuan layanan dan berbagi data komprehensif bagi perusahaan serta membantu perusahaan mengelola layanan API untuk sistem internal dan eksternal secara terpusat. | Untuk informasi selengkapnya, lihat Ikhtisar DataService Studio. |
5. Open Platform
DataWorks menyediakan kemampuan keterbukaan yang memungkinkan sistem aplikasi Anda terintegrasi dengan cepat ke DataWorks. Anda dapat menggunakan DataWorks untuk mengelola proses terkait data, mengatur tata kelola data, melakukan operasi O&M pada data, dan merespons perubahan status bisnis di sistem aplikasi secara cepat.
Item | Deskripsi | Referensi |
OpenAPI | Modul OpenAPI memungkinkan Anda memanggil operasi API DataWorks sehingga Anda dapat mengintegrasikan aplikasi Anda dengan DataWorks. Hal ini dapat membantu memfasilitasi pemrosesan data besar, mengurangi operasi manual dan O&M, meminimalkan risiko data, serta mengurangi biaya bagi perusahaan. | |
OpenEvent | Modul OpenEvent memungkinkan Anda berlangganan event perubahan DataWorks yang terkait dengan aplikasi Anda sehingga Anda dapat mendeteksi dan merespons perubahan tersebut sedini mungkin. | |
Extensions | Anda dapat menggunakan modul OpenEvent untuk berlangganan pesan event yang dihasilkan di ruang kerja DataWorks Anda. Anda dapat menggunakan modul Extensions untuk mendaftarkan program lokal Anda sebagai ekstensi guna mengelola event dan proses titik ekstensi. |