Ringkasan Data Studio: Platform Pengembangan Lakehouse Terpadu - DataWorks

Data Studio adalah platform pengembangan danau data terpadu (data lakehouse) cerdas yang menggabungkan 15 tahun pengalaman Alibaba dalam bidang data besar. Platform ini kompatibel dengan berbagai layanan komputasi Alibaba Cloud dan menyediakan ekstrak, transformasi, dan muat (ETL) cerdas, manajemen Katalog data, serta orkestrasi alur kerja lintas mesin. Data Studio mendukung pengembangan Python, analisis Notebook, dan integrasi Git melalui lingkungan pengembangan pribadi. Platform ini juga memiliki ekosistem plug-in yang kaya untuk mengintegrasikan komputasi real-time dan offline, danau data terpadu, data besar, serta AI, sehingga membantu Anda mengelola seluruh siklus hidup 'Data+AI'.

Pengenalan Data Studio

Data Studio adalah platform pengembangan danau data terpadu cerdas yang dibangun berdasarkan metodologi data besar Alibaba selama 15 tahun. Platform ini terintegrasi secara mendalam dengan berbagai layanan komputasi data besar dan AI dari Alibaba Cloud, seperti MaxCompute, E-MapReduce, Hologres, Realtime Compute for Apache Flink, dan PAI. Platform ini menyediakan layanan pengembangan ETL cerdas untuk arsitektur gudang data, data lake, dan danau data terpadu OpenLake. Data Studio mendukung fitur-fitur berikut:

Katalog data: Katalog data dengan kemampuan manajemen metadata untuk danau data terpadu.
Alur kerja: Model pengembangan yang mendukung orkestrasi alur kerja yang mencakup node real-time, offline, dan AI untuk berbagai jenis mesin.
Lingkungan pengembangan pribadi: Menyediakan dukungan untuk pengembangan dan debugging node Python, analisis interaktif menggunakan Notebook, serta integrasi dengan Git untuk manajemen kode dan NAS atau OSS untuk penyimpanan.
Notebook: Alat cerdas dan interaktif untuk pengembangan dan analisis data. Mendukung analisis SQL atau Python untuk berbagai mesin data, memungkinkan Anda menjalankan atau mendebug kode secara instan, serta menyediakan hasil data yang divisualisasikan.

Aktifkan Data Studio (versi baru)

Anda dapat mengaktifkan Data Studio (versi baru) dengan salah satu cara berikut:

Saat membuat ruang kerja, pilih Use Data Studio (New Version). Untuk informasi selengkapnya, lihat Buat ruang kerja.
Di DataStudio versi lama, klik tombol Upgrade To New Version di bagian atas halaman. Ikuti petunjuk di layar untuk memigrasikan data Anda ke Data Studio (versi baru).
Data Studio (versi baru) tersedia di wilayah-wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Thailand (Bangkok), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).

Penting

Jika Anda mengalami masalah saat menggunakan Data Studio (versi baru), Anda dapat bergabung dengan grup DingTalk eksklusif untuk dukungan peningkatan DataWorks.
Data di Data Studio (versi baru) dan DataStudio (versi lama) bersifat independen dan tidak saling beroperasi.
Peningkatan dari DataStudio (versi lama) ke versi baru merupakan operasi yang tidak dapat dikembalikan. Anda tidak dapat kembali ke versi lama setelah peningkatan berhasil dilakukan. Sebelum beralih, kami menyarankan Anda membuat ruang kerja uji dengan Data Studio (versi baru) diaktifkan untuk memastikan bahwa versi baru memenuhi kebutuhan bisnis Anda.
Mulai 19 Februari 2025, ketika Akun Alibaba Cloud digunakan untuk mengaktifkan DataWorks dan membuat ruang kerja untuk pertama kalinya di wilayah yang mendukung Data Studio (versi baru), versi baru akan diaktifkan secara default. Versi lama tidak akan lagi didukung.

Buka Data Studio

Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

Catatan

Titik masuk ini hanya terlihat untuk ruang kerja tempat fitur Use Data Studio (New Version) diaktifkan. Untuk informasi selengkapnya, lihat Aktifkan Data Studio (versi baru).
Data Studio hanya didukung pada Chrome 69 atau versi lebih baru di PC.

Fitur utama Data Studio

Fitur utama dijelaskan dalam bagian ini. Untuk informasi selengkapnya, lihat Lampiran: Konsep Data Studio.

Tipe	Deskripsi
Kontrol alur	DataWorks Data Studio menyediakan model pengembangan Workflow. Alur kerja adalah metode pengembangan baru yang menyediakan antarmuka Grafik asiklik terarah (DAG) yang divisualisasikan dari perspektif bisnis. Hal ini mempermudah pengelolaan proyek node yang kompleks. Untuk informasi selengkapnya, lihat Alur kerja yang dipicu otomatis, Alur kerja yang dipicu event, dan Alur kerja yang dipicu manual. Catatan Di DataWorks Data Studio, batasan berikut berlaku untuk jumlah node internal dan objek yang dapat dibuat di setiap ruang kerja: Node internal: Setiap alur kerja dapat berisi maksimal `400` node. Objek (alur kerja, node, file, tabel, resource, dan fungsi): Untuk pengguna DataWorks Edisi Perusahaan, jumlah maksimum objek adalah `200.000`. Untuk pengguna DataWorks Edisi Profesional, Edisi Standar, dan Edisi Dasar, jumlah maksimum objek adalah `100.000`. Jika jumlah alur kerja dan objek di ruang kerja Anda mencapai batas, Anda tidak dapat membuat yang baru.
Pengembangan tugas	Kemampuan yang lebih kaya: Menyediakan berbagai node mesin yang sepenuhnya mengenkapsulasi kemampuan mesin. Menyediakan node umum yang dapat dikombinasikan dengan node mesin untuk menangani logika kompleks. Contohnya termasuk kontrol alur kompleks seperti penjadwalan yang dipicu oleh sistem eksternal, pemeriksaan objek file, cabang kondisional, eksekusi kode berulang, dan penerusan hasil output. Berdasarkan Realtime Compute for Apache Flink, mendukung pengembangan node komputasi stream Flink dan pengembangan kolaboratif antara Flink dengan mesin lain seperti MaxCompute dan Hologres. Operasi yang lebih sederhana: Menyediakan mekanisme pengembangan alur kerja visual. Anda dapat menyeret dan melepas komponen untuk dengan cepat mengorkestrasikan node hibrida yang menggunakan beberapa mesin. Menyediakan editor SQL cerdas. Editor SQL menawarkan fitur seperti petunjuk kode, tampilan visual struktur operator SQL, dan verifikasi izin. Untuk informasi selengkapnya tentang tipe node yang didukung DataWorks, lihat Pengembangan node.
Penjadwalan Tugas	Metode pemicu: Mendukung penjadwalan yang dipicu oleh sistem eksternal, event, atau node hulu berdasarkan garis keturunan yang ditangkap secara otomatis. Tipe dependensi: Mendukung dependensi siklus yang sama dan lintas siklus, serta dependensi antar siklus penjadwalan dan tipe node yang berbeda. Kontrol eksekusi: Mendukung pengaturan apakah suatu node dapat dijalankan ulang. Memungkinkan Anda mengontrol waktu penjadwalan keseluruhan node hilir melalui node hulu. Mendukung pengaturan periode efektif untuk node penjadwalan. Mendukung definisi tipe penjadwalan suatu node. Misalnya, dry-run (tidak dieksekusi dan tidak memblokir penjadwalan node hilir) atau freeze (tidak dieksekusi dan memblokir penjadwalan node hilir). Jaminan idempotensi: Menyediakan mekanisme jalankan ulang node. Mendukung kondisi jalankan ulang kustom dan jumlah jalankan ulang. Untuk informasi selengkapnya tentang penjadwalan, lihat Konfigurasi penjadwalan node.
Kontrol kualitas	Menyediakan mekanisme penerbitan node terstandarisasi dan berbagai metode kontrol kualitas. Ini mencakup, namun tidak terbatas pada, skenario berikut: Tinjauan kode: Menyediakan tinjauan kode manual sebelum node diterbitkan dan mendukung pemblokiran penerbitan alur penjadwalan produksi yang bermasalah. Pemeriksaan dan verifikasi: Mendukung kontrol alur kustom dan otomatis untuk pengiriman dan penerbitan node ke penjadwalan produksi. Hal ini dapat dilakukan menggunakan pemeriksaan item tata kelola dari Data Management, logika validasi kustom dari program ekstensi, dan metode lainnya. Kualitas Data: Mendukung pengaitan pemantauan kualitas dengan node penjadwalan. Hal ini memicu pemeriksaan aturan kualitas setelah node dijalankan, membantu Anda mendeteksi masalah data segera.
Lainnya	Kemampuan terbuka: Terintegrasi dengan Open Platform untuk menyediakan beragam operasi OpenAPI. Platform ini juga memiliki banyak titik ekstensi bawaan, memungkinkan Anda berlangganan pesan tentang event Data Studio melalui Open Platform DataWorks. Kontrol akses: Mendukung pengendalian izin fitur dan izin akses data. Untuk informasi selengkapnya, lihat Kelola izin tingkat modul di ruang kerja.

Antarmuka Data Studio

Anda dapat menggunakan panduan fitur Data Studio untuk mempelajari antarmuka Data Studio dan fitur setiap modul.

Proses pengembangan node

Data Studio di DataWorks mendukung pembuatan tugas sinkronisasi real-time, tugas penjadwalan offline (termasuk tugas sinkronisasi offline dan tugas pemrosesan offline), serta tugas yang dipicu manual untuk berbagai tipe mesin. Untuk informasi selengkapnya tentang sinkronisasi data, lihat Data Integration.

Ruang kerja DataWorks tersedia dalam mode standar dan mode dasar. Proses pengembangan node berbeda antara kedua mode tersebut. Diagram berikut menunjukkan proses pengembangan untuk kedua mode.

Proses pengembangan di ruang kerja mode standar

Proses pengembangan di ruang kerja mode dasar

Proses dasar: Dalam mode standar, misalnya, proses pengembangan untuk node penjadwalan mencakup pengembangan, debugging, konfigurasi penjadwalan, penerbitan, dan O&M. Untuk informasi selengkapnya tentang proses pengembangan umum, lihat Panduan proses pengembangan data.
Kontrol alur: Selama pengembangan node, Anda dapat menggunakan fitur seperti tinjauan kode bawaan di Data Studio, pemeriksaan preset di Data Management, dan validasi logika kustom menggunakan program ekstensi dari Open Platform untuk memastikan bahwa node pengembangan mematuhi standar Anda.

Metode pengembangan data

Data Studio memungkinkan Anda menyesuaikan proses pengembangan. Anda dapat dengan cepat membangun alur pemrosesan data menggunakan Alur kerja, atau membuat node tugas individual secara manual lalu mengonfigurasi dependensinya.

Untuk informasi selengkapnya, lihat Orkestrasi alur kerja.

Kumpulan node yang didukung Data Studio

Data Studio mendukung berbagai tipe node, termasuk node integrasi data, MaxCompute, Hologres, EMR, Flink, Python, Notebook, dan AnalyticDB for MySQL. Banyak dari tipe node ini mendukung penjadwalan berulang. Anda dapat memilih node yang sesuai untuk operasi pengembangan Anda sesuai kebutuhan. Untuk daftar node yang didukung DataWorks, lihat Tipe node yang didukung.

Lampiran: Konsep Data Studio

Pengembangan Tugas

Konsep	Deskripsi
Alur kerja	Metode pengembangan baru yang menyediakan antarmuka DAG yang divisualisasikan dari perspektif bisnis. Hal ini mempermudah pengelolaan proyek node yang kompleks. Alur kerja mendukung orkestrasi puluhan tipe node, seperti node integrasi data, MaxCompute, Hologres, EMR, Flink, Python, Notebook, dan AnalyticDB for MySQL. Alur kerja juga mendukung konfigurasi penjadwalan tingkat alur kerja. Alur kerja berulang dan yang dipicu event didukung.
Alur kerja yang dipicu manual	Kumpulan node, tabel, resource, dan fungsi untuk kebutuhan bisnis tertentu. Perbedaan antara alur kerja yang dipicu manual dan alur kerja berulang adalah bahwa node dalam alur kerja yang dipicu manual harus dipicu secara manual, sedangkan node dalam alur kerja berulang dipicu sesuai jadwal.
Task Node	Node tugas adalah unit eksekusi dasar di DataWorks. Data Studio menyediakan berbagai tipe node. Ini mencakup node integrasi data untuk sinkronisasi data, node mesin komputasi untuk pembersihan data (seperti ODPS SQL, Hologres SQL, dan EMR Hive), serta node umum untuk pemrosesan logika kompleks (seperti node beban nol untuk mengelola beberapa node dan node do-while untuk perulangan kode). Anda dapat mengombinasikan node-node ini untuk memenuhi kebutuhan pemrosesan data Anda.

Konsep penjadwalan node

Konsep	Deskripsi
Dependensi	Dependensi antar node menentukan urutan eksekusinya. Jika node B hanya dapat dijalankan setelah node A dijalankan, kita katakan bahwa A adalah dependensi hulu dari B, atau B bergantung pada A. Dalam DAG, dependensi direpresentasikan oleh panah antar node.
Nama output	Nama titik output untuk setiap tugas. Ini adalah entitas virtual yang digunakan untuk menghubungkan tugas hulu dan hilir saat Anda mengatur dependensi dalam satu penyewa (Akun Alibaba Cloud). Saat Anda mengatur dependensi hulu atau hilir untuk suatu tugas, Anda harus menggunakan nama output, bukan nama node atau ID-nya. Setelah diatur, nama output suatu tugas juga berfungsi sebagai nama input untuk node hilirnya.
Nama tabel output	Kami menyarankan agar Anda mengatur nama tabel output ke tabel output dari node saat ini. Menentukan nama tabel output dengan benar membantu node hilir memastikan apakah data berasal dari tabel leluhur yang diharapkan. Kami menyarankan agar Anda tidak mengubah nama tabel output secara manual jika telah diurai secara otomatis. Nama tabel output hanya berfungsi sebagai pengenal. Mengubahnya tidak memengaruhi nama tabel output aktual dalam skrip SQL. Nama tabel output aktual ditentukan oleh logika SQL. Catatan Nama output suatu node harus unik secara global, tetapi nama tabel output tidak memiliki batasan ini.
Kelompok sumber daya penjadwalan	Mengacu pada kelompok sumber daya yang digunakan untuk penjadwalan node.
Parameter penjadwalan	Parameter penjadwalan adalah variabel dalam kode yang diberi nilai secara dinamis saat waktu proses. Jika Anda ingin kode Anda memperoleh informasi dari lingkungan runtime selama eksekusi berulang, seperti tanggal atau waktu, Anda dapat menggunakan parameter penjadwalan yang ditentukan oleh sistem pemetaan CDN DataWorks untuk memberikan nilai secara dinamis ke variabel dalam kode Anda.
Waktu data	Ini biasanya mengacu pada tanggal yang secara langsung terkait dengan aktivitas bisnis, mencerminkan waktu sebenarnya ketika data bisnis dihasilkan. Konsep ini sangat penting dalam skenario komputasi offline. Misalnya, dalam bisnis ritel, Anda mungkin perlu menghitung omzet untuk 10 Oktober 2024. Perhitungan ini sering dimulai pada pagi hari tanggal 11 Oktober 2024. Data yang dihitung sebenarnya merepresentasikan omzet untuk 10 Oktober 2024. Dalam kasus ini, 10 Oktober 2024 adalah waktu data.
Waktu terjadwal	Titik waktu, akurat hingga menit, yang diatur pengguna agar tugas berulang dijalankan. Penting Banyak faktor yang dapat memengaruhi kapan suatu node dijalankan. Suatu node tidak selalu dijalankan tepat pada waktu terjadwalnya. Sebelum node dijalankan, DataWorks memeriksa apakah node hulunya telah berhasil dijalankan, apakah waktu terjadwal telah tercapai, dan apakah sumber daya penjadwalan mencukupi. Node hanya dipicu setelah semua kondisi ini terpenuhi.