全部产品
Search
文档中心

DataWorks:Ikhtisar Data Studio (versi baru)

更新时间:Feb 04, 2026

Data Studio adalah platform pengembangan danau data terpadu (data lakehouse) cerdas yang dibangun berdasarkan pengalaman puluhan tahun Alibaba Cloud dalam bidang data besar. Platform ini mendukung berbagai layanan komputasi Alibaba Cloud dan menyediakan kemampuan untuk ekstrak, transformasi, dan muat (ETL) cerdas, manajemen katalog data, serta orkestrasi alur kerja lintas mesin. Dengan lingkungan pengembangan pribadi yang mendukung pengembangan Python, analisis Notebook, dan integrasi Git, serta ekosistem plugin yang kaya, Data Studio memungkinkan pemrosesan real-time dan offline terintegrasi, penyatuan data lakehouse, serta alur kerja data besar dan AI yang mulus—membantu Anda mengelola data sepanjang siklus hidup “Data+AI”.

Pengenalan Data Studio

Data Studio adalah platform pengembangan danau data terpadu cerdas yang mengadopsi metodologi konstruksi data besar Alibaba Cloud. Platform ini terintegrasi secara mendalam dengan puluhan layanan komputasi data besar dan AI Alibaba Cloud, seperti MaxCompute, EMR, Hologres, Flink, dan PAI, serta menyediakan layanan pengembangan ETL cerdas untuk arsitektur gudang data, data lake, dan data lakehouse OpenLake. Platform ini mendukung:

  • Dukungan data lakehouse dan multi-mesin
    Akses data di data lake (seperti OSS) dan gudang data (seperti MaxCompute), lalu lakukan pengembangan hibrida multi-mesin melalui katalog data terpadu dan beragam node mesin.

  • Alur kerja dan penjadwalan fleksibel
    Menyediakan berbagai node kontrol alur untuk mengorkestrasikan tugas lintas mesin secara visual dalam alur kerja. Platform ini juga menawarkan penjadwalan berbasis waktu dan penjadwalan berbasis pemicu event.

  • Lingkungan pengembangan Data+AI terbuka
    Menyediakan lingkungan pengembangan pribadi dengan dependensi yang dapat dikustomisasi dan Notebook yang mendukung pemrograman campuran SQL dan Python. Fitur seperti dataset dan integrasi Git membantu Anda membangun stasiun kerja riset dan pengembangan AI yang terbuka dan fleksibel.

  • Bantuan cerdas dan rekayasa AI
    Asisten cerdas Copilot bawaan mendukung Anda sepanjang proses pengembangan kode. Node algoritma PAI profesional dan node LLM menyediakan dukungan native untuk rekayasa AI end-to-end.

Konsep dasar Data Studio

Konsep

Istilah

Nilai inti

Kata kunci

Workflow

Unit organisasi dan orkestrasi untuk task

Mengelola dependensi dan mengotomatiskan penjadwalan untuk tugas kompleks. Bertindak sebagai "kontainer" untuk pengembangan dan penjadwalan.

Visualisasi, DAG, berulang/terpicu, orkestrasi

Node

Unit eksekusi terkecil dalam workflow

Tempat Anda menulis kode dan menerapkan logika bisnis spesifik. Merupakan operasi atomik untuk pemrosesan data.

SQL, Python, Shell, integrasi data

Custom image

Snapshot standar dari suatu lingkungan

Memastikan lingkungan bersifat ekstensibel, konsisten, dan dapat direproduksi.

Penguatan lingkungan, standardisasi, replikabilitas, konsistensi

Scheduling

Aturan untuk memicu tugas secara otomatis

Mengotomatiskan produksi data dengan mengubah tugas manual menjadi tugas produksi yang dapat dijalankan secara otomatis.

Penjadwalan berulang, penjadwalan terpicu, dependensi, otomatisasi

Data catalog

Workbench metadata terpadu

Mengorganisasi dan mengelola aset data (seperti tabel) serta sumber daya komputasi (seperti fungsi dan resource) secara terstruktur.

Metadata, manajemen tabel, eksplorasi data

Dataset

Pemetaan logis ke penyimpanan eksternal

Terhubung ke data tidak terstruktur eksternal, seperti gambar dan dokumen. Merupakan jembatan data utama untuk pengembangan AI.

Akses OSS/NAS, pemasangan data, tidak terstruktur

Notebook

Kanvas pengembangan Data+AI interaktif

Mengintegrasikan kode SQL dan Python untuk mempercepat eksplorasi data dan validasi algoritma.

Interaktif, multi-bahasa, visualisasi, analisis eksploratif

Panduan proses Data Studio

Data Studio menyediakan proses untuk pengembangan gudang data dan pengembangan AI. Bagian berikut menunjukkan dua jalur umum. Jelajahi jalur lain sesuai kebutuhan.

Jalur umum: Proses pengembangan gudang data untuk tugas ETL berulang

Proses ini cocok untuk membangun gudang data tingkat enterprise guna mencapai pemrosesan data batch yang stabil dan otomatis.

  • Audience target: Insinyur data, developer ETL.

  • Tujuan inti: Membangun gudang data enterprise yang stabil, terstandarisasi, dan dapat dijadwalkan secara otomatis untuk pemrosesan data batch dan pembuatan laporan.

  • Teknologi utama: Katalog data, alur kerja berulang, node SQL, konfigurasi penjadwalan.

image

Langkah

Nama fase

Operasi inti dan tujuan

Jalur utama dan referensi

1

Asosiasikan mesin komputasi

Asosiasikan satu atau beberapa mesin komputasi inti, seperti MaxCompute, dengan ruang kerja untuk berfungsi sebagai lingkungan eksekusi semua tugas SQL.

image

Console > Workspace Configuration

Untuk informasi selengkapnya, lihat Asosiasikan sumber daya komputasi.

2

Kelola katalog data

Buat atau jelajahi skema tabel yang diperlukan untuk setiap lapisan gudang data (seperti ODS, DWD, dan ADS) di katalog data. Hal ini menentukan input dan output untuk pemrosesan data.

Kami merekomendasikan Anda menggunakan modul pemodelan data untuk membangun sistem gudang data Anda.

image

Data Studio > Data Catalog

Untuk informasi selengkapnya, lihat Katalog Data.

3

Buat alur kerja terjadwal

Buat alur kerja terjadwal di direktori ruang kerja untuk berfungsi sebagai kontainer pengorganisasian dan pengelolaan tugas ETL terkait.

Data Studio > Workspace Directory > Periodic Scheduling

Untuk informasi selengkapnya, lihat Orkestrasikan alur kerja berulang.

4

Kembangkan dan debug node

Buat node seperti node ODPS SQL. Tulis logika ETL inti (pembersihan data, transformasi, dan agregasi) di editor, lalu debug node tersebut.

  • Data Studio > Node Development > Node Editor

  • Data Studio > Node Development > Debugging Configuration

Untuk informasi selengkapnya, lihat Pengembangan node.

5

Kembangkan dengan bantuan Copilot

Gunakan DataWorks Copilot untuk menghasilkan, memperbaiki, menulis ulang, dan mengonversi kode SQL dan Python.

  • Data Studio > Node Development > Copilot

  • Data Studio > Copilot > Agent

    Untuk informasi selengkapnya, lihat DataWorks Copilot.

6

Orkestrasikan dan jadwalkan node

Di kanvas DAG alur kerja, tentukan dependensi hulu dan hilir antar-node dengan menyeret dan menghubungkannya. Berbagai node kontrol alur didukung untuk memungkinkan orkestrasi alur kompleks.

Konfigurasikan properti penjadwalan untuk alur kerja atau node di lingkungan produksi, seperti siklus penjadwalan, waktu, dan dependensi. Mendukung penjadwalan skala besar hingga puluhan juta tugas per hari.

  • Data Studio > Workflow > Workflow Canvas

  • Data Studio > Node Development > Scheduling Configuration

Untuk informasi selengkapnya, lihat Node kontrol alur umum dan Konfigurasi penjadwalan node.

7

Deploy dan O&M

  • Deploy: Deploy node atau alur kerja yang telah di-debug ke lingkungan produksi melalui deployment.

  • O&M: Di Operation Center, pantau tugas, konfigurasikan alert, isi ulang data, dan lakukan validasi berulang. Gunakan garis dasar cerdas untuk memastikan tugas selesai tepat waktu dan gunakan alert pemantauan untuk segera menangani tugas abnormal.

Catatan

Untuk contoh mulai terkait, lihat Advanced: Analisis kategori produk terlaris.

Jalur lanjutan: Proses pengembangan data besar dan AI

Proses ini cocok untuk pengembangan model AI, eksplorasi ilmu data, dan membangun aplikasi AI real-time. Proses ini menekankan fleksibilitas dan interaktivitas lingkungan. Proses spesifik dapat bervariasi berdasarkan kebutuhan aktual.

  • Audience target: Insinyur AI, ilmuwan data, insinyur algoritma.

  • Tujuan inti: Melakukan eksplorasi data, pelatihan model, dan validasi algoritma, atau membangun aplikasi AI real-time seperti Generasi yang Diperkaya dengan Pengambilan Data (RAG) dan layanan inferensi real-time.

  • Teknologi utama: Lingkungan pengembangan pribadi, Notebook, alur kerja terpicu event, dataset, custom image.

    image

Langkah

Nama tahap

Operasi inti dan tujuan

Jalur utama dan dokumen referensi

1

Buat lingkungan pengembangan pribadi

Buat instans kontainer cloud terisolasi dan dapat dikustomisasi untuk berfungsi sebagai lingkungan instalasi dependensi Python kompleks dan pengembangan AI profesional.

Data Studio > Personal Development Environment

Untuk informasi selengkapnya, lihat Lingkungan pengembangan pribadi.

2

Buat alur kerja terpicu event

Buat alur kerja di direktori ruang kerja yang digerakkan oleh event eksternal. Ini menyediakan kontainer orkestrasi untuk aplikasi AI real-time.

Data Studio > Workspace Directory > Event-triggered Workflow

Untuk informasi selengkapnya, lihat Alur kerja terpicu event.

3

Buat dan atur pemicu

Konfigurasikan pemicu di Operation Center untuk menentukan event eksternal mana, seperti event OSS atau event pesan Kafka, yang akan memulai alur kerja.

  • Create: Operation Center > Trigger Management

  • Use: Data Studio > Event-triggered Workflow > Scheduling Configuration

Untuk informasi selengkapnya, lihat Kelola pemicu dan Rancang alur kerja terpicu event.

4

Buat node Notebook

Buat unit pengembangan inti untuk menulis kode AI/Python. Biasanya, eksplorasi pertama kali dilakukan di Notebook dalam folder pribadi.

Project Folder > Event-triggered Workflow > Notebook Node

Untuk informasi selengkapnya, lihat Buat node.

5

Buat dan gunakan dataset

Daftarkan data tidak terstruktur (seperti gambar dan dokumen) yang disimpan di OSS/NAS sebagai dataset. Kemudian, pasang ke lingkungan pengembangan atau tugas agar dapat diakses oleh kode.

  • Create: Data Map > Data Catalog > Dataset

  • Use: Data Studio > Personal Development Environment > Dataset Configuration

Untuk informasi selengkapnya, lihat Kelola Dataset dan Gunakan dataset.

6

Kembangkan dan debug Notebook/node

Tulis logika algoritma, jelajahi data, validasi model, dan iterasi dengan cepat di lingkungan interaktif yang disediakan oleh lingkungan pengembangan pribadi.

Data Studio > Notebook Editor

Untuk informasi selengkapnya, lihat Pengembangan Notebook dasar.

7

Instal paket dependensi kustom

Di terminal lingkungan pengembangan pribadi atau di sel Notebook, gunakan alat seperti pip untuk menginstal semua library Python pihak ketiga yang diperlukan untuk model.

Data Studio > Personal Development Environment > Terminal

Untuk informasi selengkapnya, lihat Lampiran: Lengkapi lingkungan pengembangan pribadi Anda.

8

Buat custom image

Perkuat lingkungan pengembangan pribadi dengan semua dependensi yang telah dikonfigurasi ke dalam image standar. Hal ini memastikan lingkungan produksi identik dengan lingkungan pengembangan.

Jika Anda belum menginstal paket dependensi kustom, lewati langkah ini.

  • Data Studio > Personal Development Environment > Manage Environment

  • Console > Custom Image

Untuk informasi selengkapnya, lihat Buat image DataWorks dari lingkungan pengembangan pribadi.

9

Konfigurasikan penjadwalan node

Dalam konfigurasi penjadwalan node produksi, Anda harus menentukan custom image yang dibuat pada langkah sebelumnya sebagai lingkungan runtime dan memasang dataset yang diperlukan.

Data Studio > Notebook Node > Scheduling

Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.

10

Deploy dan O&M

  • Deploy: Deploy alur kerja terpicu event yang telah dikonfigurasi ke lingkungan produksi.

  • O&M: Picu event nyata, seperti mengunggah file, untuk memverifikasi kelancaran proses end-to-end dan melakukan validasi pemicu.

Modul inti Data Studio

image

Modul inti

Kemampuan utama

Workflow orchestration

Menyediakan kanvas DAG visual yang memungkinkan Anda dengan mudah membangun dan mengelola proyek tugas kompleks melalui seret-dan-lepas. Mendukung orkestrasi alur kerja berulang, alur kerja terpicu event, dan alur kerja terpicu manual untuk memenuhi kebutuhan otomatisasi dalam berbagai skenario.

Execution environments and modes

Menyediakan lingkungan pengembangan fleksibel dan terbuka untuk meningkatkan efisiensi dan kolaborasi pengembangan.

  • Execution environment: Mendukung lingkungan pengembangan default, lingkungan pengembangan pribadi, dan custom image untuk memenuhi kebutuhan pengembangan personal. Juga mendukung integrasi Git untuk kontrol versi kode, memungkinkan developer menggunakan alat yang sudah dikenal.

  • Development mode: Menyediakan folder proyek (untuk kolaborasi tim), folder pribadi (untuk pengembangan dan pengujian pribadi), dan folder manual (untuk tugas sementara) untuk mengisolasi dan mengelola aset pengembangan secara efektif.

Node development

Mendukung berbagai jenis node dan mesin komputasi untuk pemrosesan dan analisis data yang fleksibel.

  • Compute engine: Terintegrasi mulus dengan mesin komputasi data besar seperti MaxCompute, EMR, Hologres, dan Flink, serta layanan komputasi AI seperti PAI.

  • Node type: Menyediakan integrasi data, SQL, Python, Shell, Notebook, LLM, dan berbagai node interaktif AI untuk memenuhi kebutuhan beragam seperti sinkronisasi data, pembersihan, pemrosesan, dan pelatihan AI.

Untuk informasi selengkapnya, lihat Manajemen sumber daya komputasi dan Pengembangan node.

Node scheduling

Menyediakan kemampuan penjadwalan otomatis yang kuat dan fleksibel untuk memastikan tugas dieksekusi tepat waktu dan berurutan.

  • Scheduling mechanism: Mendukung penjadwalan berulang berbasis waktu (tahun, bulan, hari, jam, menit, detik), serta penjadwalan yang dipicu oleh event atau OpenAPI.

  • Scheduling dependency: Mendukung pengaturan dependensi kompleks dalam siklus yang sama, lintas siklus, lintas alur kerja, dan lintas ruang kerja. Juga mendukung dependensi antar siklus penjadwalan berbeda dan jenis tugas berbeda.

  • Scheduling policy: Mendukung konfigurasi kebijakan lanjutan seperti periode efektif tugas, jalankan ulang saat gagal, dry-run, dan freeze.

  • Scheduling parameter: Mendukung parameter alur kerja, parameter ruang kerja, parameter konteks, dan parameter node.

    Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.

Development resource management

Menyediakan manajemen terpadu berbagai aset yang terlibat dalam proses pengembangan data.

  • Data catalog: Menyediakan kemampuan manajemen metadata data lakehouse, mendukung pembuatan, penayangan, dan pengelolaan tabel data.

  • Functions and resources: Mendukung manajemen dan referensi fungsi yang ditentukan pengguna (UDF) serta berbagai file resource, seperti file JAR dan Python.

  • Dataset: Mendukung pemasangan dan pengelolaan dataset dari penyimpanan eksternal seperti OSS/NAS.

    Untuk informasi selengkapnya, lihat Katalog Data, Manajemen Resource, dan Gunakan dataset.

Quality control

Membangun berbagai mekanisme kontrol untuk memastikan standarisasi proses produksi data dan akurasi data keluaran.

  • Code review: Mendukung tinjauan kode manual sebelum publikasi tugas untuk memastikan kualitas kode.

  • Flow control: Dapat dikombinasikan dengan pengujian asap, pemeriksaan item tata kelola, dan ekstensi untuk validasi otomatis selama pengiriman dan publikasi tugas.

  • Data Quality: Dapat dikaitkan dengan aturan pemantauan Kualitas Data untuk secara otomatis memicu validasi data setelah tugas dijalankan, sehingga masalah data dapat segera ditemukan.

    Untuk informasi selengkapnya, lihat Tinjauan kode, Konfigurasikan item pemeriksaan, Pengujian asap, dan Konfigurasikan aturan Kualitas Data.

Openness and extensibility

Menyediakan berbagai antarmuka terbuka dan titik ekstensi untuk integrasi mudah dengan sistem eksternal dan pengembangan kustom.

  • OpenAPI: Menyediakan antarmuka API lengkap yang mendukung manajemen dan operasi tugas pengembangan secara terprogram.

  • Event messages: Mendukung berlangganan pesan event terkait pengembangan data untuk memungkinkan interaksi dengan sistem eksternal.

    Untuk informasi selengkapnya, lihat OpenAPI, OpenEvent, dan Ekstensi.

Penagihan Data Studio

  • Biaya DataWorks (biaya muncul di tagihan DataWorks)

  • Biaya dari layanan lain (biaya tidak muncul di tagihan DataWorks)

    Saat Anda menjalankan tugas node Pengembangan Data, Anda mungkin dikenai biaya mesin komputasi dan penyimpanan, seperti biaya penyimpanan OSS. Biaya ini tidak dikenakan oleh DataWorks.

Mulai menggunakan Data Studio

Buat atau aktifkan Data Studio yang baru

  • Saat membuat ruang kerja, pilih Use Data Studio (New Version). Untuk operasi spesifik, lihat Buat ruang kerja.

  • Versi lama DataStudio mendukung migrasi data ke Data Studio versi baru dengan mengklik tombol Upgrade to Data Studio di bagian atas halaman Data Development dan mengikuti petunjuk di layar. Untuk informasi selengkapnya, lihat Panduan peningkatan Data Studio.

    image

Buka Data Studio yang baru

Buka halaman Workspaces di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

FAQ

  • Q: Bagaimana cara menentukan apakah saya menggunakan versi baru atau lama Data Studio?

    A: Gaya halaman sangat berbeda. Versi baru terlihat seperti tangkapan layar dalam dokumen ini, sedangkan versi lama ditunjukkan pada gambar di bawah.

    image

  • Q: Apakah saya dapat kembali ke versi lama Data Studio setelah melakukan upgrade ke versi baru?

    A: Upgrade dari versi lama ke versi baru merupakan operasi yang tidak dapat dikembalikan. Setelah upgrade berhasil, Anda tidak dapat kembali ke versi lama. Sebelum beralih, kami menyarankan Anda terlebih dahulu membuat ruang kerja dengan Data Studio versi baru diaktifkan untuk pengujian. Pastikan versi baru memenuhi kebutuhan bisnis Anda sebelum melakukan upgrade. Selain itu, data di versi baru dan lama Data Studio saling independen.

  • Q: Mengapa saya tidak melihat opsi Use Data Studio (New Version) saat membuat ruang kerja?

    A: Jika Anda tidak melihat opsi ini di antarmuka, artinya ruang kerja Anda telah mengaktifkan Data Studio versi baru secara default.

    Penting

    Jika Anda mengalami masalah apa pun saat menggunakan Data Studio versi baru, Anda dapat bergabung dengan grup DingTalk eksklusif untuk dukungan peningkatan DataWorks Data Studio untuk mendapatkan bantuan.