Data Studio adalah platform pengembangan danau data terpadu (data lakehouse) cerdas yang menggabungkan 15 tahun pengalaman Alibaba dalam bidang data besar. Platform ini kompatibel dengan berbagai layanan komputasi Alibaba Cloud dan menyediakan ekstrak, transformasi, dan muat (ETL) cerdas, manajemen Katalog data, serta orkestrasi alur kerja lintas mesin. Data Studio mendukung pengembangan Python, analisis Notebook, dan integrasi Git melalui lingkungan pengembangan pribadi. Platform ini juga memiliki ekosistem plug-in yang kaya untuk mengintegrasikan komputasi real-time dan offline, danau data terpadu, data besar, serta AI, sehingga membantu Anda mengelola seluruh siklus hidup 'Data+AI'.
Pengenalan Data Studio
Data Studio adalah platform pengembangan danau data terpadu cerdas yang dibangun berdasarkan metodologi data besar Alibaba selama 15 tahun. Platform ini terintegrasi secara mendalam dengan berbagai layanan komputasi data besar dan AI dari Alibaba Cloud, seperti MaxCompute, E-MapReduce, Hologres, Realtime Compute for Apache Flink, dan PAI. Platform ini menyediakan layanan pengembangan ETL cerdas untuk arsitektur gudang data, data lake, dan danau data terpadu OpenLake. Data Studio mendukung fitur-fitur berikut:
Katalog data: Katalog data dengan kemampuan manajemen metadata untuk danau data terpadu.
Alur kerja: Model pengembangan yang mendukung orkestrasi alur kerja yang mencakup node real-time, offline, dan AI untuk berbagai jenis mesin.
Lingkungan pengembangan pribadi: Menyediakan dukungan untuk pengembangan dan debugging node Python, analisis interaktif menggunakan Notebook, serta integrasi dengan Git untuk manajemen kode dan NAS atau OSS untuk penyimpanan.
Notebook: Alat cerdas dan interaktif untuk pengembangan dan analisis data. Mendukung analisis SQL atau Python untuk berbagai mesin data, memungkinkan Anda menjalankan atau mendebug kode secara instan, serta menyediakan hasil data yang divisualisasikan.
Aktifkan Data Studio (versi baru)
Anda dapat mengaktifkan Data Studio (versi baru) dengan salah satu cara berikut:
Saat membuat ruang kerja, pilih Use Data Studio (New Version). Untuk informasi selengkapnya, lihat Buat ruang kerja.
Di DataStudio versi lama, klik tombol Upgrade To New Version di bagian atas halaman. Ikuti petunjuk di layar untuk memigrasikan data Anda ke Data Studio (versi baru).

Data Studio (versi baru) tersedia di wilayah-wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Thailand (Bangkok), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).
Jika Anda mengalami masalah saat menggunakan Data Studio (versi baru), Anda dapat bergabung dengan grup DingTalk eksklusif untuk dukungan peningkatan DataWorks.
Data di Data Studio (versi baru) dan DataStudio (versi lama) bersifat independen dan tidak saling beroperasi.
Peningkatan dari DataStudio (versi lama) ke versi baru merupakan operasi yang tidak dapat dikembalikan. Anda tidak dapat kembali ke versi lama setelah peningkatan berhasil dilakukan. Sebelum beralih, kami menyarankan Anda membuat ruang kerja uji dengan Data Studio (versi baru) diaktifkan untuk memastikan bahwa versi baru memenuhi kebutuhan bisnis Anda.
Mulai 19 Februari 2025, ketika Akun Alibaba Cloud digunakan untuk mengaktifkan DataWorks dan membuat ruang kerja untuk pertama kalinya di wilayah yang mendukung Data Studio (versi baru), versi baru akan diaktifkan secara default. Versi lama tidak akan lagi didukung.
Buka Data Studio
Buka halaman Ruang Kerja di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Titik masuk ini hanya terlihat untuk ruang kerja tempat fitur Use Data Studio (New Version) diaktifkan. Untuk informasi selengkapnya, lihat Aktifkan Data Studio (versi baru).
Data Studio hanya didukung pada Chrome 69 atau versi lebih baru di PC.
Fitur utama Data Studio
Fitur utama dijelaskan dalam bagian ini. Untuk informasi selengkapnya, lihat Lampiran: Konsep Data Studio.
Tipe | Deskripsi |
Kontrol alur | DataWorks Data Studio menyediakan model pengembangan Workflow. Alur kerja adalah metode pengembangan baru yang menyediakan antarmuka Grafik asiklik terarah (DAG) yang divisualisasikan dari perspektif bisnis. Hal ini mempermudah pengelolaan proyek node yang kompleks. Untuk informasi selengkapnya, lihat Alur kerja yang dipicu otomatis, Alur kerja yang dipicu event, dan Alur kerja yang dipicu manual. Catatan Di DataWorks Data Studio, batasan berikut berlaku untuk jumlah node internal dan objek yang dapat dibuat di setiap ruang kerja:
Jika jumlah alur kerja dan objek di ruang kerja Anda mencapai batas, Anda tidak dapat membuat yang baru. |
Pengembangan tugas |
Untuk informasi selengkapnya tentang tipe node yang didukung DataWorks, lihat Pengembangan node. |
Penjadwalan Tugas |
Untuk informasi selengkapnya tentang penjadwalan, lihat Konfigurasi penjadwalan node. |
Kontrol kualitas | Menyediakan mekanisme penerbitan node terstandarisasi dan berbagai metode kontrol kualitas. Ini mencakup, namun tidak terbatas pada, skenario berikut:
|
Lainnya |
|
Antarmuka Data Studio
Anda dapat menggunakan panduan fitur Data Studio untuk mempelajari antarmuka Data Studio dan fitur setiap modul.
Proses pengembangan node
Data Studio di DataWorks mendukung pembuatan tugas sinkronisasi real-time, tugas penjadwalan offline (termasuk tugas sinkronisasi offline dan tugas pemrosesan offline), serta tugas yang dipicu manual untuk berbagai tipe mesin. Untuk informasi selengkapnya tentang sinkronisasi data, lihat Data Integration.
Ruang kerja DataWorks tersedia dalam mode standar dan mode dasar. Proses pengembangan node berbeda antara kedua mode tersebut. Diagram berikut menunjukkan proses pengembangan untuk kedua mode.
Proses pengembangan di ruang kerja mode standar
Proses pengembangan di ruang kerja mode dasar
Proses dasar: Dalam mode standar, misalnya, proses pengembangan untuk node penjadwalan mencakup pengembangan, debugging, konfigurasi penjadwalan, penerbitan, dan O&M. Untuk informasi selengkapnya tentang proses pengembangan umum, lihat Panduan proses pengembangan data.
Kontrol alur: Selama pengembangan node, Anda dapat menggunakan fitur seperti tinjauan kode bawaan di Data Studio, pemeriksaan preset di Data Management, dan validasi logika kustom menggunakan program ekstensi dari Open Platform untuk memastikan bahwa node pengembangan mematuhi standar Anda.
Metode pengembangan data
Data Studio memungkinkan Anda menyesuaikan proses pengembangan. Anda dapat dengan cepat membangun alur pemrosesan data menggunakan Alur kerja, atau membuat node tugas individual secara manual lalu mengonfigurasi dependensinya.
Untuk informasi selengkapnya, lihat Orkestrasi alur kerja.
Kumpulan node yang didukung Data Studio
Data Studio mendukung berbagai tipe node, termasuk node integrasi data, MaxCompute, Hologres, EMR, Flink, Python, Notebook, dan AnalyticDB for MySQL. Banyak dari tipe node ini mendukung penjadwalan berulang. Anda dapat memilih node yang sesuai untuk operasi pengembangan Anda sesuai kebutuhan. Untuk daftar node yang didukung DataWorks, lihat Tipe node yang didukung.
Lampiran: Konsep Data Studio
Pengembangan Tugas
Konsep | Deskripsi |
Alur kerja | Metode pengembangan baru yang menyediakan antarmuka DAG yang divisualisasikan dari perspektif bisnis. Hal ini mempermudah pengelolaan proyek node yang kompleks. Alur kerja mendukung orkestrasi puluhan tipe node, seperti node integrasi data, MaxCompute, Hologres, EMR, Flink, Python, Notebook, dan AnalyticDB for MySQL. Alur kerja juga mendukung konfigurasi penjadwalan tingkat alur kerja. Alur kerja berulang dan yang dipicu event didukung. |
Alur kerja yang dipicu manual | Kumpulan node, tabel, resource, dan fungsi untuk kebutuhan bisnis tertentu. Perbedaan antara alur kerja yang dipicu manual dan alur kerja berulang adalah bahwa node dalam alur kerja yang dipicu manual harus dipicu secara manual, sedangkan node dalam alur kerja berulang dipicu sesuai jadwal. |
Task Node | Node tugas adalah unit eksekusi dasar di DataWorks. Data Studio menyediakan berbagai tipe node. Ini mencakup node integrasi data untuk sinkronisasi data, node mesin komputasi untuk pembersihan data (seperti ODPS SQL, Hologres SQL, dan EMR Hive), serta node umum untuk pemrosesan logika kompleks (seperti node beban nol untuk mengelola beberapa node dan node do-while untuk perulangan kode). Anda dapat mengombinasikan node-node ini untuk memenuhi kebutuhan pemrosesan data Anda. |
Konsep penjadwalan node
Konsep | Deskripsi |
Dependensi | Dependensi antar node menentukan urutan eksekusinya. Jika node B hanya dapat dijalankan setelah node A dijalankan, kita katakan bahwa A adalah dependensi hulu dari B, atau B bergantung pada A. Dalam DAG, dependensi direpresentasikan oleh panah antar node. |
Nama output | Nama titik output untuk setiap tugas. Ini adalah entitas virtual yang digunakan untuk menghubungkan tugas hulu dan hilir saat Anda mengatur dependensi dalam satu penyewa (Akun Alibaba Cloud). Saat Anda mengatur dependensi hulu atau hilir untuk suatu tugas, Anda harus menggunakan nama output, bukan nama node atau ID-nya. Setelah diatur, nama output suatu tugas juga berfungsi sebagai nama input untuk node hilirnya. |
Nama tabel output | Kami menyarankan agar Anda mengatur nama tabel output ke tabel output dari node saat ini. Menentukan nama tabel output dengan benar membantu node hilir memastikan apakah data berasal dari tabel leluhur yang diharapkan. Kami menyarankan agar Anda tidak mengubah nama tabel output secara manual jika telah diurai secara otomatis. Nama tabel output hanya berfungsi sebagai pengenal. Mengubahnya tidak memengaruhi nama tabel output aktual dalam skrip SQL. Nama tabel output aktual ditentukan oleh logika SQL. Catatan Nama output suatu node harus unik secara global, tetapi nama tabel output tidak memiliki batasan ini. |
Kelompok sumber daya penjadwalan | Mengacu pada kelompok sumber daya yang digunakan untuk penjadwalan node. |
Parameter penjadwalan | Parameter penjadwalan adalah variabel dalam kode yang diberi nilai secara dinamis saat waktu proses. Jika Anda ingin kode Anda memperoleh informasi dari lingkungan runtime selama eksekusi berulang, seperti tanggal atau waktu, Anda dapat menggunakan parameter penjadwalan yang ditentukan oleh sistem pemetaan CDN DataWorks untuk memberikan nilai secara dinamis ke variabel dalam kode Anda. |
Waktu data | Ini biasanya mengacu pada tanggal yang secara langsung terkait dengan aktivitas bisnis, mencerminkan waktu sebenarnya ketika data bisnis dihasilkan. Konsep ini sangat penting dalam skenario komputasi offline. Misalnya, dalam bisnis ritel, Anda mungkin perlu menghitung omzet untuk 10 Oktober 2024. Perhitungan ini sering dimulai pada pagi hari tanggal 11 Oktober 2024. Data yang dihitung sebenarnya merepresentasikan omzet untuk 10 Oktober 2024. Dalam kasus ini, 10 Oktober 2024 adalah waktu data. |
Waktu terjadwal | Titik waktu, akurat hingga menit, yang diatur pengguna agar tugas berulang dijalankan. Penting Banyak faktor yang dapat memengaruhi kapan suatu node dijalankan. Suatu node tidak selalu dijalankan tepat pada waktu terjadwalnya. Sebelum node dijalankan, DataWorks memeriksa apakah node hulunya telah berhasil dijalankan, apakah waktu terjadwal telah tercapai, dan apakah sumber daya penjadwalan mencukupi. Node hanya dipicu setelah semua kondisi ini terpenuhi. |