All Products
Search
Document Center

DataWorks:O&M Berbasis AI

Last Updated:Jun 22, 2026

DataWorks O&M berbasis AI adalah kemampuan operasional yang didukung oleh DataWorks Copilot, dirancang untuk memberikan penilaian kesehatan komprehensif dan diagnosis masalah bagi task instances. Dengan menganalisis berbagai dimensi—termasuk rantai dependensi, tingkat penggunaan sumber daya, tren eksekusi historis, dampak perubahan, anomali log, dan kualitas data—sistem ini secara otomatis menghasilkan laporan diagnostik terstruktur. Laporan tersebut tidak hanya mengungkap akar penyebab masalah, tetapi juga memberikan solusi spesifik beserta aksi operasional satu klik. Tujuannya adalah membantu Anda beralih dari troubleshooting reaktif ke deteksi dan pencegahan masalah secara proaktif, sehingga secara signifikan meningkatkan efisiensi O&M.

Fitur

O&M berbasis AI merupakan alat cerdas terpadu untuk operasi task di DataWorks. Fitur ini merupakan penyempurnaan dari fitur O&M cerdas sebelumnya. Saat menghadapi masalah seperti kegagalan task, eksekusi lambat, atau resource contention, DataWorks O&M berbasis AI secara otomatis menganalisis seluruh siklus hidup task, dengan cepat mengidentifikasi akar penyebab, dan memberikan solusi lengkap beserta aksi operasional satu klik.

Kemampuan inti:

  • Diagnosis komprehensif: Mencakup semua status task, mulai dari belum berjalan dan menunggu hingga sedang berjalan dan selesai, baik berhasil maupun gagal. Cakupan diagnosis meluas dari satu instans atau workflow hingga seluruh workspace. Diagnosis dilakukan dengan menganalisis dependensi, penggunaan sumber daya, performa historis, dan konten log, serta mendukung pertanyaan lanjutan berbasis konteks.

  • Analisis akar penyebab: Tidak hanya menampilkan error log, tetapi juga menghubungkan informasi multidimensi untuk mengidentifikasi penyebab mendasar suatu masalah.

  • Operasi interaktif: Memungkinkan Anda mengeluarkan perintah O&M—seperti menjalankan ulang instans, menandainya sebagai berhasil, atau mengubah kelompok sumber daya—langsung dalam dialog chat. Fitur ini menyederhanakan operasi kompleks menjadi tombol satu klik, sehingga secara signifikan meningkatkan efisiensi O&M.

Mulai cepat

Bagian ini memandu Anda melalui proses diagnosis lengkap untuk skenario umum: troubleshooting instans task yang gagal.

  1. Mulai diagnosis

    1. Buka Operation Center > Scheduled Instance dan temukan instans target yang gagal.

    2. Klik nama instans untuk memperluas DAG-nya. Arahkan kursor ke instans tersebut, lalu pada menu pintasan yang muncul, klik tombol AI Diagnostics.

      Pada DAG, node yang gagal seperti ods_user_info_d ditandai dengan ikon × merah dan batas berwarna merah, sedangkan node downstream-nya ditampilkan dalam status 'not run'. Tombol AI diagnosis berada di dekat garis yang menghubungkan node gagal dengan node upstream-nya.

  2. Tunggu analisis AI

    Setelah diklik, asisten DataWorks Copilot akan otomatis terbuka di sisi kanan halaman dan menampilkan "DataWorks Copilot sedang memproses...". Selama menunggu, Copilot menunjukkan langkah-langkah analisis yang sedang dilakukan, sehingga Anda dapat memahami proses "pemikiran" AI tersebut. Berikut adalah alur diagnosis khas; Anda dapat memperluas langkah mana pun untuk melihat detailnya.

    Proses analisis secara berurutan melakukan langkah-langkah seperti Query task instance status and information, Query internal nodes of the workflow, Analyze failed instance logs, Analyze and diagnose, Query task instance logs, Query task publishing changes, Query instance operation records, dan Query instance code. Setelah selesai, sistem menampilkan DataWorks Copilot has completed execution!.

    Saat Anda memperluas langkah Analyze and diagnose, Copilot menampilkan diagnosis terperinci yang mencakup tiga bagian: Problem Analysis, Possible Causes, dan Solution Suggestions. Misalnya, jika sebuah task gagal karena kelompok sumber daya eksklusif telah kedaluwarsa, bagian Problem Analysis menunjukkan bahwa pesan error-nya adalah com.alibaba.phoenix.error.BillException, yang mengindikasikan kegagalan pemeriksaan penagihan. Bagian Possible Causes mencantumkan alasan seperti berakhirnya periode langganan kelompok sumber daya tanpa perpanjangan, kesalahan konfigurasi atau penghapusan tidak sengaja, tunggakan akun, atau perubahan izin. Bagian Solution Suggestions memandu Anda ke halaman Resource Group Management untuk memeriksa status kelompok sumber daya dan memperpanjang layanannya, atau sementara beralih ke kelompok sumber daya lain yang tersedia dalam scheduling configuration task tersebut.

  3. Interpretasikan laporan diagnostik

    Sekitar 10 detik setelahnya, Copilot mengembalikan laporan diagnostik terstruktur. Fokuslah pada bagian-bagian berikut:

    • Anomaly Detection: Ini adalah kesimpulan utama yang perlu ditinjau. Fitur ini mengidentifikasi anomali instans melalui analisis komprehensif dan menyimpulkan akar penyebab berdasarkan konteks.

    • Analysis Process: Bagian ini mencantumkan rantai bukti yang digunakan AI untuk mencapai kesimpulannya, sehingga meningkatkan kredibilitas hasil.

    • Solution and prevention suggestions: Memberikan langkah-langkah spesifik yang dapat ditindaklanjuti untuk memperbaiki masalah serta rekomendasi jangka panjang guna mencegah terulangnya masalah tersebut.

    Anomaly Detection
    • Root Cause: Task gagal karena kelompok sumber daya eksklusif (ID: 70b78c03-d6b9-4234-bde9-e0da1e6e8c33) telah kedaluwarsa. Sistem mendeteksi bahwa kelompok sumber daya tidak tersedia saat mencoba memulai task, sehingga melemparkan BillException dan menghentikan eksekusi task.
    Analysis Process
    1. Initial Status Check:
       • Memanggil get_task_instance dan menemukan status instans adalah "Failed".
    2. Log Analysis:
       • Menggunakan analyze_task_instance_log dan get_task_instance_log untuk melihat log error terperinci, mengonfirmasi alasan kegagalan sebagai "exclusive resource group has expired".
    3. Change and Operation Record Check:
       • Menggunakan list_task_changes dan menemukan perubahan terakhir terjadi pada 2026-02-01, yaitu pembaruan pada task itu sendiri.
       • list_task_operations menunjukkan bahwa kelompok sumber daya untuk task ini diubah pada 2026-02-01 (dari yunshi_dataxcdc_pre_resource ke dgc_checker_test_rescource_dlf), tetapi hal ini tidak menyelesaikan masalah.
    4. Code Review:
       • Meninjau kode task (get_task_instance_code) dan menemukan bahwa kode tersebut merupakan skrip penulisan data PyODPS standar tanpa kesalahan logika yang jelas atau permintaan sumber daya yang tidak tepat.
  4. Terapkan solusi

    Ikuti rekomendasi yang disediakan dalam laporan.

    • Tindakan segera: Laporan biasanya menyediakan aksi pintasan yang langsung terkait dengan masalah. Misalnya, untuk masalah kelompok sumber daya, laporan mungkin menawarkan pintasan untuk mengubah kelompok sumber daya task. Anda cukup membalas dengan Yes, dan AI akan membantu Anda mengubah kelompok sumber daya tersebut.

      Bagian Solution and prevention suggestions Copilot mencakup Immediate measures (buka halaman Exclusive Resource Group Management untuk memeriksa status kelompok sumber daya, perpanjang layanan, atau tetapkan ulang task ke kelompok sumber daya yang valid) dan Long-term optimization (bangun mekanisme pemantauan untuk masa kedaluwarsa kelompok sumber daya dan tinjau secara berkala dependensi kelompok sumber daya task).

      Copilot menampilkan formulir konfirmasi Modify Instance Resource Group, yang secara otomatis mengisi parameter seperti Environment, Task Instance ID List, Workspace, Resource Group, dan Is Business Process Instance. Setelah memastikan informasi sudah benar, klik Confirm and Execute untuk menyelesaikan modifikasi.

    • Operasi interaktif: Jika laporan tidak menyediakan aksi spesifik, Anda dapat terus memasukkan perintah di kotak dialog untuk menyelesaikan masalah. Misalnya, Anda dapat mengetik "modify the resource group for task xxx", dan Copilot akan memandu Anda melalui proses tersebut. Melalui interaksi bahasa alami, AI dapat secara dinamis memahami kebutuhan kontekstual yang kompleks, menyederhanakan operasi, dan membuatnya cocok untuk skenario O&M tak terstruktur.

      Copilot secara otomatis menanyakan status instans task dan menampilkan formulir konfirmasi dengan bidang seperti Environment, Task Instance ID List, Workspace, Resource Group, dan Is Business Process Instance. Setelah memastikan informasi sudah benar, klik Confirm and Execute untuk menyelesaikan operasi.

Catatan

Laporan diagnostik dan solusi yang disarankan bervariasi tergantung pada penyebab kegagalan. Hasil dapat berbeda sesuai dengan situasi spesifik Anda. Untuk daftar operasi yang didukung, lihat Supported O&M Operations.

Catatan penggunaan

  • Untuk diagnosis tingkat workspace atau saat melibatkan banyak instans, respons mungkin tertunda selama 1 hingga 5 menit.

  • Analisis dependensi lintas workspace didukung, tetapi Anda harus menjadi anggota workspace target untuk melihat detail analisis.

Aktifkan diagnosis AI

O&M berbasis AI dapat diakses dari berbagai titik masuk di DataWorks.

Titik masuk global (Copilot)

Di halaman DataWorks mana pun, buka kotak dialog Copilot di pojok kanan atas, alihkan Copilot ke mode Agent, lalu pilih /Data O&M.

Anda dapat memasukkan Diagnose instance: <Instance ID>, gunakan @<Instance ID> untuk memberikan konteks, untuk memulai diagnosis.

Catatan

Di titik masuk global, Anda harus menggunakan /Data O&M untuk menentukan agent. Di titik masuk kontekstual, hal ini tidak diperlukan karena agent O&M digunakan secara default.

Titik masuk kontekstual

Lokasi

Aksi

Operation Center > AI operations and maintenance

Di Operation Center, klik O&M berbasis AI di panel navigasi kiri.

Operation Center > Instance List

Di kolom Actions, klik More > AI Diagnostics. Hal ini memungkinkan Anda mendiagnosis instans siklus, uji, dan backfill.

Operation Center > DAG

Arahkan kursor ke instans node dan klik tombol AI Diagnostics.

Tab Instance Run Log

Di halaman diagnosis log, klik tombol AI Diagnostics di bagian atas untuk secara otomatis membuka Copilot dan mengirimkan perintah diagnosis.

Halaman Log Diagnosis

Di kotak dialog di tengah halaman, aktifkan AI Diagnostics, masukkan ID instans atau workspace, lalu mulai diagnosis.

Catatan: Tombol "Intelligent Diagnosis" asli telah diubah namanya menjadi Log Diagnosis dan kini menganalisis konten log saat ini.

Skema diagnosis yang didukung

Masalah tingkat instans

Jenis masalah

Contoh perintah

Task failure

Diagnose instance: <Instance ID> atau gunakan @<Instance ID> untuk memberikan konteks.

Slow execution

Why is instance <Instance ID> running slower today?

Long wait time

Check why instance <Instance ID> is still waiting.

Dependency blocking

Which parent nodes of instance <Instance ID> have failed?

Operasi O&M yang didukung

Dalam laporan diagnostik atau dialog Copilot, Anda dapat melakukan operasi berikut pada task atau instans dalam suatu workspace, baik secara individual maupun batch:

Penting

Anda harus meninjau dan mengizinkan setiap operasi di kotak dialog AI sebelum dieksekusi.

Aksi

Deskripsi

Rerun instance

Menjalankan ulang instans saat ini.

Set as successful

Memaksa menandai instans sebagai berhasil.

Suspend/Resume instance

Mengontrol status penjadwalan.

Modify resource group

Mengganti kelompok sumber daya.

Modify priority

Menyesuaikan prioritas penjadwalan, yang memengaruhi penjadwalan baseline.

Refresh instance

Memperbarui konfigurasi instans ke status terbarunya.

Anda harus memiliki role Project Owner atau O&M untuk workspace target.