Bangun & otomatiskan pipeline ML dengan PAI Flow node - DataWorks

PAI Flow memungkinkan Anda mengembangkan alur kerja pembelajaran mesin end-to-end. Fitur ini menyediakan kemampuan alur kerja yang setara dengan Designer pemodelan berbasis visualisasi dari Platform for AI (PAI) dan memungkinkan penjadwalan alur kerja secara berkala.

Batasan

Batasan produk
- PAI Flow hanya didukung di DataWorks Workspace (New Version).
- PAI Flow saat ini hanya mendukung node Source/Target dan RAG Data Processing.
- PAI Flow hanya mendukung kelompok sumber daya Serverless.
Batasan wilayah: PAI Flow tersedia di Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, Indonesia (Jakarta), Jepang (Tokyo), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).

Prasyarat

Ruang kerja DataWorks DataStudio (New) dan ruang kerja Platform for AI telah disiapkan.

Saat Anda membuat ruang kerja, centang opsi Create An AI Workspace With The Same Name. Tindakan ini akan secara otomatis membuat dan menyambungkan ruang kerja PAI dengan nama yang sama.
Anda dapat mengaktifkan fitur Schedule PAI Algorithm Tasks untuk ruang kerja yang sudah ada melalui Management Center. Operasi ini secara otomatis membuat ruang kerja PAI dengan nama yang sama seperti ruang kerja DataWorks.

Membuat PAIFlow

Buka halaman DataStudio.
Login ke Konsol DataWorks. Pada bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Data Development.
Pada folder proyek Data Studio, klik ikon dan pilih New Node > Algorithm > PAI Flow. Langkah ini membuat node PAI Flow baru dan membuka halaman orkestrasi PAI Flow.

Mengembangkan PAIFlow

PAI Flow menyediakan berbagai node pemodelan visual untuk merancang alur dan mengembangkan node kustom.

Di PAI Flow, Anda dapat memilih node dari panel kiri, menyeretnya ke kanvas, lalu menghubungkan node-node tersebut untuk merancang alur.

Setelah merancang alur, klik sebuah node untuk mengonfigurasinya di panel kanan.

Jenis node	Node	Deskripsi
Source/Destination	Read Table	Komponen Read Table membaca data dari tabel MaxCompute. Secara default, komponen ini membaca tabel dari proyek saat ini.
	Read OSS Data	Komponen ini membaca file atau folder dari path di dalam `Bucket` Object Storage Service (OSS).
	Read CSV File	Komponen ini mendukung pembacaan data file `CSV` dari `OSS`, `HTTP`, dan Hadoop Distributed File System (`HDFS`).
	Write to Table	Komponen ini menulis data masukan ke `MaxCompute`.
retrieval-augmented generation (RAG) Data Processing	RAG Text Parsing and Splitting	Membaca dan mengurai file teks (seperti `HTML`, `PDF`, `Markdown`, dan `Text`) di direktori input. Komponen ini menghasilkan blok teks berurutan yang tidak melebihi ukuran blok yang ditentukan dan menyimpannya ke path output yang ditentukan dalam format `JSONline`.
	RAG Embedding Generation	Memuat semua file dokumen yang telah diurai dan dipisah (`format JSONline`) dari direktori yang ditentukan. Komponen ini kemudian menggunakan model `Embedding` untuk menghasilkan text embedding.
	RAG Knowledge Base Index Synchronization	Menyinkronkan data input ke indeks basis pengetahuan tujuan.

Catatan

Saat mengonfigurasi path file, Anda dapat menyertakan variabel dalam path tersebut. Contohnya: https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${variable}/example.csv. Anda dapat menggunakan parameter penjadwalan sebagai variabel. Hal ini memungkinkan jadwal berulang untuk membaca dari atau menulis ke path penyimpanan yang berbeda.

Setelah mengembangkan node, Anda dapat mengonfigurasi Scheduling Configuration untuk node PAI Flow di bilah alat sebelah kanan pada halaman orkestrasi alur. Konfigurasi ini memastikan bahwa node tersebut dijadwalkan secara berkala setelah dipublikasikan ke lingkungan produksi.
Catatan
Saat mengonfigurasi penjadwalan, hanya kelompok sumber daya Serverless yang didukung sebagai kelompok sumber daya penjadwalan.

Publikasikan node PAI Flow

Setelah menguji node PAI Flow dan mengonfigurasi pengaturan penjadwalannya, Anda harus melakukan commit dan mempublikasikan node PAI Flow. Node tersebut kemudian akan berjalan secara berkala sesuai konfigurasi penjadwalan.

Untuk menyimpan node PAI Flow, klik Save di bilah alat bagian atas.
Setelah node disimpan, klik ikon di bilah alat untuk membuka panel publikasi. Untuk informasi selengkapnya, lihat Publish tasks. Klik Publish to Production untuk mempublikasikan tugas.

Langkah selanjutnya

Setelah node PAI Flow dipublikasikan, klik Go to O&M di panel publikasi. Anda akan diarahkan ke halaman Recurring Tasks, tempat Anda dapat melihat status penjadwalan dan status Berjalan node tersebut.

Catatan

Dalam grafik asiklik terarah (DAG), Anda hanya dapat melihat tugas internal setelah membuka node PAI Flow.