全部产品
Search
文档中心

DataWorks:Data Studio (versi baru)

更新时间:Jul 06, 2025

Data Studio adalah platform pengembangan data berbasis lakehouse yang cerdas, dibangun oleh Alibaba Group berdasarkan 15 tahun pengalaman dalam big data. Platform ini kompatibel dengan berbagai layanan komputasi dari Alibaba Cloud dan menyediakan kemampuan ETL cerdas (ekstrak, transformasi, dan muat), manajemen katalog data, serta orkestrasi alur kerja lintas mesin. Data Studio juga menyediakan instance lingkungan pengembangan pribadi untuk mendukung pengembangan data dalam Python, analisis data berbasis notebook, dan integrasi Git. Platform ini mendukung berbagai ekosistem plugin untuk mengimplementasikan integrasi pemrosesan data real-time dan offline, integrasi big data dan AI, serta arsitektur lakehouse, memfasilitasi manajemen data sepanjang siklus hidup data dalam mode "Data+AI".

Ikhtisar

Data Studio adalah platform pengembangan data berbasis lakehouse yang cerdas, memanfaatkan metodologi pengembangan big data dari Alibaba Group berdasarkan 15 tahun pengalaman dalam big data. Platform ini kompatibel dengan puluhan layanan komputasi big data dan AI dari Alibaba Cloud, seperti MaxCompute, E-MapReduce (EMR), Hologres, Realtime Compute for Apache Flink, dan Platform for AI (PAI). Data Studio menyediakan layanan ETL cerdas untuk gudang data, danau data, dan arsitektur OpenLake lakehouse, serta mendukung fitur-fitur berikut:

  • Katalog data: mengelola metadata dalam arsitektur lakehouse.

  • Alur kerja: mengoordinasikan node pengembangan real-time dan offline serta node AI dari puluhan jenis mesin.

  • Instance lingkungan pengembangan pribadi: memungkinkan Anda menjalankan dan men-debug kode node dalam Python, mendukung analisis interaktif berbasis notebook, serta integrasi dengan repositori Git untuk manajemen kode dan Apsara File Storage NAS untuk penyimpanan.

  • Notebook: alat pengembangan dan analisis data interaktif cerdas yang dapat digunakan untuk melakukan analisis kode SQL atau Python spesifik mesin dan menjalankan atau men-debug kode secara real-time. Dengan cara ini, Anda bisa mendapatkan hasil pemrosesan data yang divisualisasikan.

Deskripsi pratinjau publik

Anda dapat menggunakan salah satu metode berikut untuk mengaktifkan Data Studio:

  • Aktifkan Participate in Public Preview of DataStudio of New Version saat Anda membuat ruang kerja. Untuk informasi lebih lanjut, lihat Hubungkan sumber daya komputasi dengan ruang kerja (Participate in Public Preview of Data Studio diaktifkan).

  • Di bilah navigasi atas halaman DataStudio versi lama, klik Upgrade Data Studio untuk memigrasikan data ke new-version Data Studio sesuai petunjuk.

    image

  • Anda dapat berpartisipasi dalam pratinjau publik Data Studio dan mencoba semua fitur Data Studio di wilayah berikut: Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Shenzhen), Cina (Hong Kong), Singapura, Indonesia (Jakarta), dan Jerman (Frankfurt).

Penting
  • Data dalam layanan new-version Data Studio bersifat independen dan tidak berkomunikasi dengan data dalam layanan old-version DataStudio.

  • Setelah Anda meningkatkan old-version DataStudio ke new-version Data Studio, Anda tidak dapat kembali ke old-version DataStudio. Operasi peningkatan ini tidak dapat dibatalkan. Sebelum Anda melakukan operasi peningkatan, kami sarankan Anda membuat ruang kerja tempat new-version Data Studio diaktifkan untuk pengujian dan pastikan bahwa new-version Data Studio memenuhi kebutuhan bisnis Anda.

  • Mulai 19 Februari 2025, new-version Data Studio diaktifkan secara default jika Anda mengaktifkan DataWorks dan membuat ruang kerja untuk pertama kalinya menggunakan akun Alibaba Cloud Anda di wilayah yang mendukung pratinjau publik new-version Data Studio. Old-version DataStudio tidak lagi didukung.

Pergi ke halaman Data Studio

Pergi ke halaman Workspaces di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

Catatan

Titik masuk ini hanya tersedia untuk ruang kerja tempat Data Studio dalam pratinjau publik diaktifkan. Untuk informasi lebih lanjut, lihat Hubungkan sumber daya komputasi dengan ruang kerja (Participate in Public Preview of Data Studio diaktifkan).

Fitur utama Data Studio

Bagian ini menjelaskan fitur utama yang disediakan oleh Data Studio. Untuk informasi tentang istilah terkait, lihat bagian Lampiran: Istilah terkait pengembangan data dalam topik ini.

Fitur

Deskripsi

Manajemen alur kerja

DataWorks Data Studio menyediakan mode pengembangan berbasis workflow-based. Ini adalah metode R&D baru. Anda dapat mengelola tugas-tugas kompleks dengan mudah dalam grafik asiklik terarah (DAG) dari perspektif bisnis.

Untuk informasi lebih lanjut, lihat Alur kerja yang dipicu otomatis dan Alur kerja yang dipicu manual.

Catatan

Batas maksimum jumlah alur kerja dan objek yang dapat Anda buat di new-version Data Studio dan old-version DataStudio di setiap ruang kerja:

  • Alur kerja: Anda dapat membuat maksimal 300 alur kerja.

  • Objek (node, file, tabel, sumber daya, atau fungsi): Untuk Edisi Enterprise DataWorks, Anda dapat membuat maksimal 200.000 objek. Untuk Edisi Profesional DataWorks, Edisi Standar DataWorks, atau Edisi Dasar DataWorks, Anda dapat membuat maksimal 100.000 objek.

Jika jumlah alur kerja atau objek di ruang kerja saat ini mencapai batas atas, Anda tidak dapat lagi membuat alur kerja atau objek.

Pengembangan tugas

  • Berbagai kemampuan:

    • Menyediakan node dari berbagai jenis mesin komputasi untuk sepenuhnya mengenkapsulasi kemampuan mesin komputasi.

    • Menyediakan node umum. Anda dapat menggabungkan node umum dan node dari jenis mesin komputasi tertentu di DataWorks untuk memproses logika bisnis yang kompleks. Misalnya, Anda dapat mengaktifkan sistem eksternal untuk memicu penjadwalan node di DataWorks, memeriksa apakah file ada, merutekan hasil berdasarkan kondisi logis, mengeksekusi kode node tertentu dalam loop, dan meneruskan output antar node.

    • Mendukung pengembangan tugas komputasi aliran berbasis Realtime Compute for Apache Flink dan juga mendukung pengembangan tugas kolaboratif antara Realtime Compute for Apache Flink dan mesin komputasi lainnya seperti MaxCompute dan Hologres.

  • Operasi sederhana:

    • Memungkinkan Anda mengembangkan data secara visual pada tab konfigurasi alur kerja. Anda dapat menyeret komponen untuk melakukan orkestrasi hibrid tugas dari berbagai jenis mesin komputasi.

    • Menyediakan editor SQL cerdas. Editor SQL menyediakan fitur seperti petunjuk kode, tampilan struktur kode menggunakan operator SQL, dan verifikasi izin.

Untuk informasi tentang jenis node yang didukung oleh DataWorks, lihat Pengembangan node.

Penjadwalan tugas

  • Metode pemicu: Penjadwalan tugas dapat dipicu oleh sistem eksternal, peristiwa, atau output tugas leluhur. Output tugas leluhur memicu penjadwalan tugas berdasarkan penguraian garis keturunan internal.

  • Dependensi: Anda dapat mengonfigurasi dependensi siklus yang sama dan lintas siklus. Anda juga dapat mengonfigurasi dependensi antara berbagai jenis tugas yang frekuensi penjadwalannya berbeda.

  • Kontrol eksekusi: Anda dapat menentukan apakah akan menjalankan ulang tugas dan mengelola waktu penjadwalan tugas berdasarkan output tugas leluhurnya. Anda dapat menentukan periode validitas selama tugas dijalankan secara otomatis sesuai jadwal dan jenis penjadwalan tugas. Misalnya, Anda dapat menentukan tugas sebagai tugas uji coba kering atau membekukan tugas. Setelah Anda menentukan tugas sebagai tugas uji coba kering, sistem mengembalikan respons sukses untuk tugas tanpa menjalankan tugas. Penjadwalan tugas turunan dari tugas tersebut tidak diblokir. Setelah Anda membekukan tugas, sistem tidak menjalankan tugas, dan penjadwalan tugas turunan dari tugas tersebut diblokir.

  • Idempotensi: Data Studio menyediakan mekanisme menjalankan ulang yang dapat Anda gunakan untuk mengonfigurasi kondisi dan waktu menjalankan ulang kustom.

Untuk informasi lebih lanjut tentang penjadwalan, lihat Penjadwalan node.

Manajemen kualitas

Data Studio menyediakan mekanisme penyebaran tugas standar dan berbagai metode untuk melaksanakan manajemen kualitas. Anda dapat melakukan operasi yang mencakup tetapi tidak terbatas pada operasi berikut untuk manajemen kualitas:

  • Tinjau kode sebelum tugas diterapkan. Ini membantu memblokir pelaksanaan proses di mana kesalahan terjadi di lingkungan produksi.

  • Konfigurasikan kontrol proses kustom pada pengiriman dan penerapan tugas ke lingkungan produksi, dikombinasikan dengan item tata kelola yang disediakan oleh Pusat Tata Kelola Data dan logika verifikasi yang disesuaikan berdasarkan ekstensi.

  • Hubungkan aturan pemantauan dengan node penjadwalan. Setelah node dijalankan, aturan pemantauan dipicu untuk memeriksa data yang dihasilkan oleh node, dan anomali data dilaporkan secepat mungkin.

Fitur lainnya

  • Keterbukaan: DataWorks Platform Terbuka menyediakan berbagai operasi API dan sejumlah besar titik ekstensi bawaan. Anda dapat berlangganan pesan acara terkait pengembangan data di Platform Terbuka DataWorks.

  • Kontrol izin: Anda dapat mengelola izin pada modul layanan DataWorks dan izin akses data. Untuk informasi lebih lanjut, lihat Kelola izin pada layanan tingkat ruang kerja.

Pengenalan halaman Data Studio

Anda dapat mengikuti instruksi yang dijelaskan di Panduan fitur Data Studio untuk menggunakan fitur setiap modul di halaman Data Studio.

Proses pengembangan tugas

DataWorks Data Studio memungkinkan Anda membuat berbagai jenis tugas sinkronisasi real-time, tugas sinkronisasi batch, tugas pemrosesan batch, dan tugas yang dipicu manual dari berbagai jenis mesin komputasi. Untuk informasi lebih lanjut tentang sinkronisasi data, lihat Ikhtisar Integrasi Data.

Dua mode ruang kerja berikut tersedia: mode standar dan mode dasar. Proses pengembangan tugas bervariasi berdasarkan mode ruang kerja.

Proses pengembangan tugas di ruang kerja dalam mode standar

Proses pengembangan tugas di ruang kerja dalam mode dasar

  • Proses dasar: Misalnya, Anda ingin mengembangkan tugas di ruang kerja dalam mode standar. Proses pengembangan mencakup tahap-tahap berikut: pengembangan, debugging, konfigurasi pengaturan penjadwalan, penerapan, dan O&M. Untuk informasi lebih lanjut, lihat Panduan proses pengembangan data.

  • Kontrol proses: Selama pengembangan tugas, Anda dapat melakukan operasi seperti tinjauan kode yang disediakan oleh Data Studio dan menggunakan item pemeriksaan yang telah ditetapkan di Pusat Tata Kelola Data dan logika verifikasi yang disesuaikan berdasarkan ekstensi di Platform Terbuka untuk memastikan bahwa standar dan persyaratan tertentu pada pengembangan tugas terpenuhi.

Metode pengembangan data

Data Studio memungkinkan Anda menentukan proses pengembangan kustom. Anda dapat menggunakan fitur alur kerja untuk dengan cepat membangun proses pemrosesan data. Anda juga dapat secara manual membuat berbagai jenis node dan mengonfigurasi dependensi penjadwalan untuk node tersebut.

Untuk informasi lebih lanjut, lihat Manajemen direktori.

Jenis node yang didukung oleh Data Studio

Layanan Data Studio dari DataWorks memungkinkan Anda membuat berbagai jenis node, seperti sinkronisasi data, MaxCompute, Hologres, EMR, Realtime Compute for Apache Flink, Python, notebook, dan AnalyticDB. Anda dapat mengaktifkan DataWorks untuk menjadwalkan secara berkala instance yang dihasilkan untuk node. Anda juga dapat memilih jenis node tertentu untuk mengembangkan data berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut tentang jenis node yang didukung oleh DataWorks, lihat Jenis node yang didukung.

Lampiran: Istilah terkait pengembangan data

Istilah terkait pengembangan tugas

Istilah

Deskripsi

Alur kerja yang dipicu otomatis

Metode R&D baru. Anda dapat mengelola tugas-tugas kompleks dengan mudah dalam DAG dari perspektif bisnis. Anda dapat membuat berbagai jenis node dalam alur kerja, seperti sinkronisasi data, MaxCompute, Hologres, EMR, Realtime Compute for Apache Flink, Python, notebook, dan AnalyticDB. Anda dapat mengonfigurasi pengaturan penjadwalan di tingkat alur kerja.

Alur kerja yang dipicu manual

Kumpulan tugas, tabel, sumber daya, dan fungsi untuk kebutuhan bisnis tertentu.

Node dalam jenis alur kerja ini dipicu secara manual untuk dijalankan. Node dalam alur kerja yang dipicu otomatis dipicu untuk dijalankan sesuai jadwal.

Node

Satuan eksekusi dasar DataWorks. Data Studio memungkinkan Anda membuat berbagai jenis node, seperti node Integrasi Data yang digunakan untuk sinkronisasi data, node mesin komputasi yang digunakan untuk pembersihan data, dan node umum yang digunakan bersama dengan node mesin komputasi untuk memproses logika kompleks. Node mesin komputasi mencakup node MaxCompute SQL, node Hologres SQL, dan node EMR Hive. Node umum mencakup node beban nol yang dapat digunakan untuk mengelola beberapa node lainnya dan node do-while yang dapat menjalankan kode node dalam loop. Anda dapat menggabungkan berbagai jenis node dalam bisnis Anda untuk memenuhi berbagai kebutuhan pemrosesan data Anda.

Istilah terkait penjadwalan tugas

Istilah

Deskripsi

Dependensi

Digunakan untuk menentukan urutan tugas dijalankan. Jika Node B hanya dapat dijalankan setelah Node A selesai dijalankan, Node A adalah node leluhur dari Node B, dan Node B bergantung pada Node A. Dalam DAG, dependensi direpresentasikan oleh panah antara node.

Nama output

Nama output setiap tugas. Saat Anda mengonfigurasi dependensi antara tugas dalam akun Alibaba Cloud, nama output tugas digunakan untuk terhubung ke tugas turunannya.

Saat Anda mengonfigurasi dependensi untuk tugas, Anda harus menggunakan nama output tugas tersebut alih-alih nama node atau ID. Setelah Anda mengonfigurasi dependensi, nama output tugas tersebut berfungsi sebagai nama input tugas turunannya.

Nama tabel output

Kami merekomendasikan Anda menggunakan nama tabel yang dihasilkan oleh tugas saat ini sebagai nama tabel output. Konfigurasi nama tabel output yang tepat dapat membantu memeriksa apakah data berasal dari tabel leluhur yang diharapkan saat Anda mengonfigurasi dependensi untuk node turunan. Kami merekomendasikan Anda tidak secara manual memodifikasi nama tabel output yang dihasilkan berdasarkan penguraian otomatis. Nama tabel output hanya berfungsi sebagai pengenal. Memodifikasi nama tabel output tidak memengaruhi nama tabel yang sebenarnya dihasilkan dengan mengeksekusi pernyataan SQL. Nama tabel yang sebenarnya dihasilkan tunduk pada logika SQL.

Catatan

output name harus unik secara global. Namun, tidak ada batasan seperti itu yang diberlakukan pada output table name.

Grup sumber daya untuk penjadwalan

Grup sumber daya yang digunakan untuk penjadwalan tugas. Untuk informasi lebih lanjut tentang grup sumber daya, lihat Ikhtisar.

Parameter penjadwalan

Dikonfigurasi untuk node saat node dijadwalkan untuk dijalankan. Nilai parameter penjadwalan diganti secara dinamis pada waktu penjadwalan node. Jika Anda ingin mendapatkan informasi tentang lingkungan runtime, seperti tanggal dan waktu, selama eksekusi berulang kode, Anda dapat menetapkan nilai secara dinamis ke variabel dalam kode berdasarkan definisi parameter penjadwalan di DataWorks.

Cap waktu data

Tanggal yang secara langsung terkait dengan aktivitas bisnis, yang mencerminkan waktu aktual saat transaksi bisnis dilakukan. Istilah ini sangat penting dalam skenario komputasi offline. Sebagai contoh, jika Anda ingin mengumpulkan data statistik tentang omset yang dihasilkan pada 10 Oktober 2024 dalam bisnis ritel, perhitungan dimulai pada pagi hari tanggal 11 Oktober 2024. Tanggal 10 Oktober 2024 adalah tanggal ketika transaksi bisnis dilakukan dan mewakili cap waktu data.

Waktu penjadwalan

Titik waktu ketika tugas yang dipicu otomatis dijadwalkan untuk dijalankan. Waktu penjadwalan dapat akurat hingga menit.

Penting

Pelaksanaan tugas dipengaruhi oleh berbagai faktor. Tugas mungkin tidak mulai dijalankan saat waktu penjadwalan tugas tiba. Sebelum tugas dijalankan, DataWorks memeriksa apakah tugas leluhur dari tugas tersebut berhasil dijalankan, apakah waktu penjadwalan tugas telah tiba, dan apakah sumber daya penjadwalan mencukupi. Tugas hanya dapat dipicu untuk dijalankan jika semua kondisi sebelumnya terpenuhi.