Apa itu Data Studio DataWorks yang baru - DataWorks

Data Studio adalah platform pengembangan danau data terpadu (data lakehouse) cerdas yang dibangun berdasarkan pengalaman puluhan tahun Alibaba Cloud dalam bidang data besar. Platform ini mendukung berbagai layanan komputasi Alibaba Cloud dan menyediakan kemampuan untuk ekstrak, transformasi, dan muat (ETL) cerdas, manajemen katalog data, serta orkestrasi alur kerja lintas mesin. Dengan lingkungan pengembangan pribadi yang mendukung pengembangan Python, analisis Notebook, dan integrasi Git, serta ekosistem plugin yang kaya, Data Studio memungkinkan pemrosesan real-time dan offline terintegrasi, penyatuan data lakehouse, serta alur kerja data besar dan AI yang mulus—membantu Anda mengelola data sepanjang siklus hidup “Data+AI”.

Pengenalan Data Studio

Data Studio adalah platform pengembangan danau data terpadu cerdas yang mengadopsi metodologi konstruksi data besar Alibaba Cloud. Platform ini terintegrasi secara mendalam dengan puluhan layanan komputasi data besar dan AI Alibaba Cloud, seperti MaxCompute, EMR, Hologres, Flink, dan PAI, serta menyediakan layanan pengembangan ETL cerdas untuk arsitektur gudang data, data lake, dan data lakehouse OpenLake. Platform ini mendukung:

Dukungan data lakehouse dan multi-mesin
Akses data di data lake (seperti OSS) dan gudang data (seperti MaxCompute), lalu lakukan pengembangan hibrida multi-mesin melalui katalog data terpadu dan beragam node mesin.
Alur kerja dan penjadwalan fleksibel
Menyediakan berbagai node kontrol alur untuk mengorkestrasikan tugas lintas mesin secara visual dalam alur kerja. Platform ini juga menawarkan penjadwalan berbasis waktu dan penjadwalan berbasis pemicu event.
Lingkungan pengembangan Data+AI terbuka
Menyediakan lingkungan pengembangan pribadi dengan dependensi yang dapat dikustomisasi dan Notebook yang mendukung pemrograman campuran SQL dan Python. Fitur seperti dataset dan integrasi Git membantu Anda membangun stasiun kerja riset dan pengembangan AI yang terbuka dan fleksibel.
Bantuan cerdas dan rekayasa AI
Asisten cerdas Copilot bawaan mendukung Anda sepanjang proses pengembangan kode. Node algoritma PAI profesional dan node LLM menyediakan dukungan native untuk rekayasa AI end-to-end.

Konsep dasar Data Studio

Konsep	Istilah	Nilai inti	Kata kunci
Workflow	Unit organisasi dan orkestrasi untuk task	Mengelola dependensi dan mengotomatiskan penjadwalan untuk tugas kompleks. Bertindak sebagai "kontainer" untuk pengembangan dan penjadwalan.	Visualisasi, DAG, berulang/terpicu, orkestrasi
Node	Unit eksekusi terkecil dalam workflow	Tempat Anda menulis kode dan menerapkan logika bisnis spesifik. Merupakan operasi atomik untuk pemrosesan data.	SQL, Python, Shell, integrasi data
Custom image	Snapshot standar dari suatu lingkungan	Memastikan lingkungan bersifat ekstensibel, konsisten, dan dapat direproduksi.	Penguatan lingkungan, standardisasi, replikabilitas, konsistensi
Scheduling	Aturan untuk memicu tugas secara otomatis	Mengotomatiskan produksi data dengan mengubah tugas manual menjadi tugas produksi yang dapat dijalankan secara otomatis.	Penjadwalan berulang, penjadwalan terpicu, dependensi, otomatisasi
Data catalog	Workbench metadata terpadu	Mengorganisasi dan mengelola aset data (seperti tabel) serta sumber daya komputasi (seperti fungsi dan resource) secara terstruktur.	Metadata, manajemen tabel, eksplorasi data
Dataset	Pemetaan logis ke penyimpanan eksternal	Terhubung ke data tidak terstruktur eksternal, seperti gambar dan dokumen. Merupakan jembatan data utama untuk pengembangan AI.	Akses OSS/NAS, pemasangan data, tidak terstruktur
Notebook	Kanvas pengembangan Data+AI interaktif	Mengintegrasikan kode SQL dan Python untuk mempercepat eksplorasi data dan validasi algoritma.	Interaktif, multi-bahasa, visualisasi, analisis eksploratif

Panduan proses Data Studio

Data Studio menyediakan proses untuk pengembangan gudang data dan pengembangan AI. Bagian berikut menunjukkan dua jalur umum. Jelajahi jalur lain sesuai kebutuhan.

Jalur umum: Proses pengembangan gudang data untuk tugas ETL berulang

Proses ini cocok untuk membangun gudang data tingkat enterprise guna mencapai pemrosesan data batch yang stabil dan otomatis.

Audience target: Insinyur data, developer ETL.
Tujuan inti: Membangun gudang data enterprise yang stabil, terstandarisasi, dan dapat dijadwalkan secara otomatis untuk pemrosesan data batch dan pembuatan laporan.
Teknologi utama: Katalog data, alur kerja berulang, node SQL, konfigurasi penjadwalan.

Langkah	Nama fase	Operasi inti dan tujuan	Jalur utama dan referensi
1	Asosiasikan mesin komputasi	Asosiasikan satu atau beberapa mesin komputasi inti, seperti MaxCompute, dengan ruang kerja untuk berfungsi sebagai lingkungan eksekusi semua tugas SQL.	Console > Workspace Configuration Untuk informasi selengkapnya, lihat Asosiasikan sumber daya komputasi.
2	Kelola katalog data	Buat atau jelajahi skema tabel yang diperlukan untuk setiap lapisan gudang data (seperti ODS, DWD, dan ADS) di katalog data. Hal ini menentukan input dan output untuk pemrosesan data. Kami merekomendasikan Anda menggunakan modul pemodelan data untuk membangun sistem gudang data Anda.	Data Studio > Data Catalog Untuk informasi selengkapnya, lihat Katalog Data.
3	Buat alur kerja terjadwal	Buat alur kerja terjadwal di direktori ruang kerja untuk berfungsi sebagai kontainer pengorganisasian dan pengelolaan tugas ETL terkait.	Data Studio > Workspace Directory > Periodic Scheduling Untuk informasi selengkapnya, lihat Orkestrasikan alur kerja berulang.
4	Kembangkan dan debug node	Buat node seperti node ODPS SQL. Tulis logika ETL inti (pembersihan data, transformasi, dan agregasi) di editor, lalu debug node tersebut.	Data Studio > Node Development > Node Editor Data Studio > Node Development > Debugging Configuration Untuk informasi selengkapnya, lihat Pengembangan node.
5	Kembangkan dengan bantuan Copilot	Gunakan DataWorks Copilot untuk menghasilkan, memperbaiki, menulis ulang, dan mengonversi kode SQL dan Python.	Data Studio > Node Development > Copilot Data Studio > Copilot > Agent Untuk informasi selengkapnya, lihat DataWorks Copilot.
6	Orkestrasikan dan jadwalkan node	Di kanvas DAG alur kerja, tentukan dependensi hulu dan hilir antar-node dengan menyeret dan menghubungkannya. Berbagai node kontrol alur didukung untuk memungkinkan orkestrasi alur kompleks. Konfigurasikan properti penjadwalan untuk alur kerja atau node di lingkungan produksi, seperti siklus penjadwalan, waktu, dan dependensi. Mendukung penjadwalan skala besar hingga puluhan juta tugas per hari.	Data Studio > Workflow > Workflow Canvas Data Studio > Node Development > Scheduling Configuration Untuk informasi selengkapnya, lihat Node kontrol alur umum dan Konfigurasi penjadwalan node.
7	Deploy dan O&M	Deploy: Deploy node atau alur kerja yang telah di-debug ke lingkungan produksi melalui deployment. O&M: Di Operation Center, pantau tugas, konfigurasikan alert, isi ulang data, dan lakukan validasi berulang. Gunakan garis dasar cerdas untuk memastikan tugas selesai tepat waktu dan gunakan alert pemantauan untuk segera menangani tugas abnormal.	Data Studio > Node/Workflow Details > Deploy Node/Workflow Operation Center > Auto Triggered Node O&M > Auto Triggered Nodes Untuk informasi selengkapnya, lihat Deploy node atau alur kerja dan Operasi O&M dasar untuk node yang dipicu otomatis.

Catatan

Untuk contoh mulai terkait, lihat Advanced: Analisis kategori produk terlaris.

Jalur lanjutan: Proses pengembangan data besar dan AI

Proses ini cocok untuk pengembangan model AI, eksplorasi ilmu data, dan membangun aplikasi AI real-time. Proses ini menekankan fleksibilitas dan interaktivitas lingkungan. Proses spesifik dapat bervariasi berdasarkan kebutuhan aktual.

Audience target: Insinyur AI, ilmuwan data, insinyur algoritma.
Tujuan inti: Melakukan eksplorasi data, pelatihan model, dan validasi algoritma, atau membangun aplikasi AI real-time seperti Generasi yang Diperkaya dengan Pengambilan Data (RAG) dan layanan inferensi real-time.
Teknologi utama: Lingkungan pengembangan pribadi, Notebook, alur kerja terpicu event, dataset, custom image.

Langkah	Nama tahap	Operasi inti dan tujuan	Jalur utama dan dokumen referensi
1	Buat lingkungan pengembangan pribadi	Buat instans kontainer cloud terisolasi dan dapat dikustomisasi untuk berfungsi sebagai lingkungan instalasi dependensi Python kompleks dan pengembangan AI profesional.	Data Studio > Personal Development Environment Untuk informasi selengkapnya, lihat Lingkungan pengembangan pribadi.
2	Buat alur kerja terpicu event	Buat alur kerja di direktori ruang kerja yang digerakkan oleh event eksternal. Ini menyediakan kontainer orkestrasi untuk aplikasi AI real-time.	Data Studio > Workspace Directory > Event-triggered Workflow Untuk informasi selengkapnya, lihat Alur kerja terpicu event.
3	Buat dan atur pemicu	Konfigurasikan pemicu di Operation Center untuk menentukan event eksternal mana, seperti event OSS atau event pesan Kafka, yang akan memulai alur kerja.	Create: Operation Center > Trigger Management Use: Data Studio > Event-triggered Workflow > Scheduling Configuration Untuk informasi selengkapnya, lihat Kelola pemicu dan Rancang alur kerja terpicu event.
4	Buat node Notebook	Buat unit pengembangan inti untuk menulis kode AI/Python. Biasanya, eksplorasi pertama kali dilakukan di Notebook dalam folder pribadi.	Project Folder > Event-triggered Workflow > Notebook Node Untuk informasi selengkapnya, lihat Buat node.
5	Buat dan gunakan dataset	Daftarkan data tidak terstruktur (seperti gambar dan dokumen) yang disimpan di OSS/NAS sebagai dataset. Kemudian, pasang ke lingkungan pengembangan atau tugas agar dapat diakses oleh kode.	Create: Data Map > Data Catalog > Dataset Use: Data Studio > Personal Development Environment > Dataset Configuration Untuk informasi selengkapnya, lihat Kelola Dataset dan Gunakan dataset.
6	Kembangkan dan debug Notebook/node	Tulis logika algoritma, jelajahi data, validasi model, dan iterasi dengan cepat di lingkungan interaktif yang disediakan oleh lingkungan pengembangan pribadi.	Data Studio > Notebook Editor Untuk informasi selengkapnya, lihat Pengembangan Notebook dasar.
7	Instal paket dependensi kustom	Di terminal lingkungan pengembangan pribadi atau di sel Notebook, gunakan alat seperti `pip` untuk menginstal semua library Python pihak ketiga yang diperlukan untuk model.	Data Studio > Personal Development Environment > Terminal Untuk informasi selengkapnya, lihat Lampiran: Lengkapi lingkungan pengembangan pribadi Anda.
8	Buat custom image	Perkuat lingkungan pengembangan pribadi dengan semua dependensi yang telah dikonfigurasi ke dalam image standar. Hal ini memastikan lingkungan produksi identik dengan lingkungan pengembangan. Jika Anda belum menginstal paket dependensi kustom, lewati langkah ini.	Data Studio > Personal Development Environment > Manage Environment Console > Custom Image Untuk informasi selengkapnya, lihat Buat image DataWorks dari lingkungan pengembangan pribadi.
9	Konfigurasikan penjadwalan node	Dalam konfigurasi penjadwalan node produksi, Anda harus menentukan custom image yang dibuat pada langkah sebelumnya sebagai lingkungan runtime dan memasang dataset yang diperlukan.	Data Studio > Notebook Node > Scheduling Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.
10	Deploy dan O&M	Deploy: Deploy alur kerja terpicu event yang telah dikonfigurasi ke lingkungan produksi. O&M: Picu event nyata, seperti mengunggah file, untuk memverifikasi kelancaran proses end-to-end dan melakukan validasi pemicu.	Data Studio > Node/Workflow Details > Deploy Node/Workflow Operation Center > Manually Triggered Node O&M > Manually Triggered Node Untuk informasi selengkapnya, lihat Deploy node dan alur kerja dan Jalankan dan kelola tugas sekali jalan.

Modul inti Data Studio

Modul inti	Kemampuan utama
Workflow orchestration	Menyediakan kanvas DAG visual yang memungkinkan Anda dengan mudah membangun dan mengelola proyek tugas kompleks melalui seret-dan-lepas. Mendukung orkestrasi alur kerja berulang, alur kerja terpicu event, dan alur kerja terpicu manual untuk memenuhi kebutuhan otomatisasi dalam berbagai skenario.
Execution environments and modes	Menyediakan lingkungan pengembangan fleksibel dan terbuka untuk meningkatkan efisiensi dan kolaborasi pengembangan. Execution environment: Mendukung lingkungan pengembangan default, lingkungan pengembangan pribadi, dan custom image untuk memenuhi kebutuhan pengembangan personal. Juga mendukung integrasi Git untuk kontrol versi kode, memungkinkan developer menggunakan alat yang sudah dikenal. Development mode: Menyediakan folder proyek (untuk kolaborasi tim), folder pribadi (untuk pengembangan dan pengujian pribadi), dan folder manual (untuk tugas sementara) untuk mengisolasi dan mengelola aset pengembangan secara efektif.
Node development	Mendukung berbagai jenis node dan mesin komputasi untuk pemrosesan dan analisis data yang fleksibel. Compute engine: Terintegrasi mulus dengan mesin komputasi data besar seperti MaxCompute, EMR, Hologres, dan Flink, serta layanan komputasi AI seperti PAI. Node type: Menyediakan integrasi data, SQL, Python, Shell, Notebook, LLM, dan berbagai node interaktif AI untuk memenuhi kebutuhan beragam seperti sinkronisasi data, pembersihan, pemrosesan, dan pelatihan AI. Untuk informasi selengkapnya, lihat Manajemen sumber daya komputasi dan Pengembangan node.
Node scheduling	Menyediakan kemampuan penjadwalan otomatis yang kuat dan fleksibel untuk memastikan tugas dieksekusi tepat waktu dan berurutan. Scheduling mechanism: Mendukung penjadwalan berulang berbasis waktu (tahun, bulan, hari, jam, menit, detik), serta penjadwalan yang dipicu oleh event atau OpenAPI. Scheduling dependency: Mendukung pengaturan dependensi kompleks dalam siklus yang sama, lintas siklus, lintas alur kerja, dan lintas ruang kerja. Juga mendukung dependensi antar siklus penjadwalan berbeda dan jenis tugas berbeda. Scheduling policy: Mendukung konfigurasi kebijakan lanjutan seperti periode efektif tugas, jalankan ulang saat gagal, dry-run, dan freeze. Scheduling parameter: Mendukung parameter alur kerja, parameter ruang kerja, parameter konteks, dan parameter node. Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.
Development resource management	Menyediakan manajemen terpadu berbagai aset yang terlibat dalam proses pengembangan data. Data catalog: Menyediakan kemampuan manajemen metadata data lakehouse, mendukung pembuatan, penayangan, dan pengelolaan tabel data. Functions and resources: Mendukung manajemen dan referensi fungsi yang ditentukan pengguna (UDF) serta berbagai file resource, seperti file JAR dan Python. Dataset: Mendukung pemasangan dan pengelolaan dataset dari penyimpanan eksternal seperti OSS/NAS. Untuk informasi selengkapnya, lihat Katalog Data, Manajemen Resource, dan Gunakan dataset.
Quality control	Membangun berbagai mekanisme kontrol untuk memastikan standarisasi proses produksi data dan akurasi data keluaran. Code review: Mendukung tinjauan kode manual sebelum publikasi tugas untuk memastikan kualitas kode. Flow control: Dapat dikombinasikan dengan pengujian asap, pemeriksaan item tata kelola, dan ekstensi untuk validasi otomatis selama pengiriman dan publikasi tugas. Data Quality: Dapat dikaitkan dengan aturan pemantauan Kualitas Data untuk secara otomatis memicu validasi data setelah tugas dijalankan, sehingga masalah data dapat segera ditemukan. Untuk informasi selengkapnya, lihat Tinjauan kode, Konfigurasikan item pemeriksaan, Pengujian asap, dan Konfigurasikan aturan Kualitas Data.
Openness and extensibility	Menyediakan berbagai antarmuka terbuka dan titik ekstensi untuk integrasi mudah dengan sistem eksternal dan pengembangan kustom. OpenAPI: Menyediakan antarmuka API lengkap yang mendukung manajemen dan operasi tugas pengembangan secara terprogram. Event messages: Mendukung berlangganan pesan event terkait pengembangan data untuk memungkinkan interaksi dengan sistem eksternal. Untuk informasi selengkapnya, lihat OpenAPI, OpenEvent, dan Ekstensi.

Penagihan Data Studio

Biaya DataWorks (biaya muncul di tagihan DataWorks)
- Biaya kelompok sumber daya: Pengembangan node dan lingkungan developer pribadi memerlukan kelompok sumber daya. Bergantung pada jenis kelompok sumber daya, Anda dikenai biaya kelompok sumber daya Serverless atau biaya untuk kelompok sumber daya eksklusif untuk penjadwalan.
  Jika Anda menggunakan layanan model besar, Anda juga dikenai biaya kelompok sumber daya Serverless.
- Biaya penjadwalan tugas: Jika Anda memublikasikan tugas ke lingkungan produksi untuk eksekusi terjadwal, Anda dikenai biaya penjadwalan tugas (saat menggunakan kelompok sumber daya Serverless) atau biaya untuk kelompok sumber daya eksklusif untuk penjadwalan (saat menggunakan kelompok sumber daya eksklusif).
- Biaya Kualitas Data: Jika Anda mengonfigurasi pemantauan kualitas untuk tugas periodik dan instans berhasil dipicu, Anda dikenai biaya instans Kualitas Data.
- Biaya garis dasar cerdas: Jika Anda mengonfigurasi garis dasar cerdas untuk tugas periodik, Anda dikenai biaya instans garis dasar cerdas untuk garis dasar yang berada dalam status aktif.
- Biaya pesan teks dan panggilan telepon alert: Jika Anda mengonfigurasi pemantauan alert untuk tugas periodik dan pesan teks atau panggilan telepon berhasil dipicu, Anda dikenai biaya pesan teks dan panggilan telepon alert.
  Catatan
  Biaya ini terkait dengan modul Pengembangan Data, Kualitas Data, dan Pusat Operasi.
Biaya dari layanan lain (biaya tidak muncul di tagihan DataWorks)
Saat Anda menjalankan tugas node Pengembangan Data, Anda mungkin dikenai biaya mesin komputasi dan penyimpanan, seperti biaya penyimpanan OSS. Biaya ini tidak dikenakan oleh DataWorks.

Mulai menggunakan Data Studio

Buat atau aktifkan Data Studio yang baru

Saat membuat ruang kerja, pilih Use Data Studio (New Version). Untuk operasi spesifik, lihat Buat ruang kerja.
Versi lama DataStudio mendukung migrasi data ke Data Studio versi baru dengan mengklik tombol Upgrade to Data Studio di bagian atas halaman Data Development dan mengikuti petunjuk di layar. Untuk informasi selengkapnya, lihat Panduan peningkatan Data Studio.

Buka Data Studio yang baru

Buka halaman Workspaces di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

FAQ

Q: Bagaimana cara menentukan apakah saya menggunakan versi baru atau lama Data Studio?
A: Gaya halaman sangat berbeda. Versi baru terlihat seperti tangkapan layar dalam dokumen ini, sedangkan versi lama ditunjukkan pada gambar di bawah.
Q: Apakah saya dapat kembali ke versi lama Data Studio setelah melakukan upgrade ke versi baru?
A: Upgrade dari versi lama ke versi baru merupakan operasi yang tidak dapat dikembalikan. Setelah upgrade berhasil, Anda tidak dapat kembali ke versi lama. Sebelum beralih, kami menyarankan Anda terlebih dahulu membuat ruang kerja dengan Data Studio versi baru diaktifkan untuk pengujian. Pastikan versi baru memenuhi kebutuhan bisnis Anda sebelum melakukan upgrade. Selain itu, data di versi baru dan lama Data Studio saling independen.
Q: Mengapa saya tidak melihat opsi Use Data Studio (New Version) saat membuat ruang kerja?
A: Jika Anda tidak melihat opsi ini di antarmuka, artinya ruang kerja Anda telah mengaktifkan Data Studio versi baru secara default.
Penting
Jika Anda mengalami masalah apa pun saat menggunakan Data Studio versi baru, Anda dapat bergabung dengan grup DingTalk eksklusif untuk dukungan peningkatan DataWorks Data Studio untuk mendapatkan bantuan.