All Products
Search
Document Center

DataWorks:Node PAI Flow

Last Updated:Feb 27, 2026

PAI Flow memungkinkan Anda mengembangkan alur kerja pembelajaran mesin end-to-end. Fitur ini menyediakan kemampuan alur kerja yang setara dengan Designer pemodelan berbasis visualisasi dari Platform for AI (PAI) dan memungkinkan penjadwalan alur kerja secara berkala.

Batasan

  • Batasan produk

    • PAI Flow hanya didukung di DataWorks Workspace (New Version).

    • PAI Flow saat ini hanya mendukung node Source/Target dan RAG Data Processing.

    • PAI Flow hanya mendukung kelompok sumber daya Serverless.

  • Batasan wilayah: PAI Flow tersedia di Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, Indonesia (Jakarta), Jepang (Tokyo), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).

Prasyarat

Ruang kerja DataWorks DataStudio (New) dan ruang kerja Platform for AI telah disiapkan.

  • Saat Anda membuat ruang kerja, centang opsi Create An AI Workspace With The Same Name. Tindakan ini akan secara otomatis membuat dan menyambungkan ruang kerja PAI dengan nama yang sama.

  • Anda dapat mengaktifkan fitur Schedule PAI Algorithm Tasks untuk ruang kerja yang sudah ada melalui Management Center. Operasi ini secara otomatis membuat ruang kerja PAI dengan nama yang sama seperti ruang kerja DataWorks.

Membuat PAIFlow

  1. Buka halaman DataStudio.

    Login ke Konsol DataWorks. Pada bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Data Development.

  2. Pada folder proyek Data Studio, klik ikon image dan pilih New Node > Algorithm > PAI Flow. Langkah ini membuat node PAI Flow baru dan membuka halaman orkestrasi PAI Flow.

Mengembangkan PAIFlow

PAI Flow menyediakan berbagai node pemodelan visual untuk merancang alur dan mengembangkan node kustom.

  1. Di PAI Flow, Anda dapat memilih node dari panel kiri, menyeretnya ke kanvas, lalu menghubungkan node-node tersebut untuk merancang alur.

  2. Setelah merancang alur, klik sebuah node untuk mengonfigurasinya di panel kanan.

    Jenis node

    Node

    Deskripsi

    Source/Destination

    Read Table

    Komponen Read Table membaca data dari tabel MaxCompute. Secara default, komponen ini membaca tabel dari proyek saat ini.

    Read OSS Data

    Komponen ini membaca file atau folder dari path di dalam Bucket Object Storage Service (OSS).

    Read CSV File

    Komponen ini mendukung pembacaan data file CSV dari OSS, HTTP, dan Hadoop Distributed File System (HDFS).

    Write to Table

    Komponen ini menulis data masukan ke MaxCompute.

    retrieval-augmented generation (RAG) Data Processing

    RAG Text Parsing and Splitting

    Membaca dan mengurai file teks (seperti HTML, PDF, Markdown, dan Text) di direktori input. Komponen ini menghasilkan blok teks berurutan yang tidak melebihi ukuran blok yang ditentukan dan menyimpannya ke path output yang ditentukan dalam format JSONline.

    RAG Embedding Generation

    Memuat semua file dokumen yang telah diurai dan dipisah (format JSONline) dari direktori yang ditentukan. Komponen ini kemudian menggunakan model Embedding untuk menghasilkan text embedding.

    RAG Knowledge Base Index Synchronization

    Menyinkronkan data input ke indeks basis pengetahuan tujuan.

    Catatan

    Saat mengonfigurasi path file, Anda dapat menyertakan variabel dalam path tersebut. Contohnya: https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${variable}/example.csv. Anda dapat menggunakan parameter penjadwalan sebagai variabel. Hal ini memungkinkan jadwal berulang untuk membaca dari atau menulis ke path penyimpanan yang berbeda.

  3. Setelah mengembangkan node, Anda dapat mengonfigurasi Scheduling Configuration untuk node PAI Flow di bilah alat sebelah kanan pada halaman orkestrasi alur. Konfigurasi ini memastikan bahwa node tersebut dijadwalkan secara berkala setelah dipublikasikan ke lingkungan produksi.

    Catatan

    Saat mengonfigurasi penjadwalan, hanya kelompok sumber daya Serverless yang didukung sebagai kelompok sumber daya penjadwalan.

Publikasikan node PAI Flow

Setelah menguji node PAI Flow dan mengonfigurasi pengaturan penjadwalannya, Anda harus melakukan commit dan mempublikasikan node PAI Flow. Node tersebut kemudian akan berjalan secara berkala sesuai konfigurasi penjadwalan.

  1. Untuk menyimpan node PAI Flow, klik Save di bilah alat bagian atas.

  2. Setelah node disimpan, klik ikon image di bilah alat untuk membuka panel publikasi. Untuk informasi selengkapnya, lihat Publish tasks. Klik Publish to Production untuk mempublikasikan tugas.

Langkah selanjutnya

Setelah node PAI Flow dipublikasikan, klik Go to O&M di panel publikasi. Anda akan diarahkan ke halaman Recurring Tasks, tempat Anda dapat melihat status penjadwalan dan status Berjalan node tersebut.

Catatan

Dalam grafik asiklik terarah (DAG), Anda hanya dapat melihat tugas internal setelah membuka node PAI Flow.