PAI Flow memungkinkan Anda mengembangkan alur kerja pembelajaran mesin end-to-end. Fitur ini menyediakan kemampuan alur kerja yang setara dengan Designer pemodelan berbasis visualisasi dari Platform for AI (PAI) dan memungkinkan penjadwalan alur kerja secara berkala.
Batasan
Batasan produk
PAI Flow hanya didukung di DataWorks Workspace (New Version).
PAI Flow saat ini hanya mendukung node Source/Target dan RAG Data Processing.
PAI Flow hanya mendukung kelompok sumber daya Serverless.
Batasan wilayah: PAI Flow tersedia di Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, Indonesia (Jakarta), Jepang (Tokyo), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).
Prasyarat
Ruang kerja DataWorks DataStudio (New) dan ruang kerja Platform for AI telah disiapkan.
Saat Anda membuat ruang kerja, centang opsi Create An AI Workspace With The Same Name. Tindakan ini akan secara otomatis membuat dan menyambungkan ruang kerja PAI dengan nama yang sama.
Anda dapat mengaktifkan fitur Schedule PAI Algorithm Tasks untuk ruang kerja yang sudah ada melalui Management Center. Operasi ini secara otomatis membuat ruang kerja PAI dengan nama yang sama seperti ruang kerja DataWorks.
Membuat PAIFlow
Buka halaman DataStudio.
Login ke Konsol DataWorks. Pada bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Data Development.
Pada folder proyek Data Studio, klik ikon
dan pilih . Langkah ini membuat node PAI Flow baru dan membuka halaman orkestrasi PAI Flow.
Mengembangkan PAIFlow
PAI Flow menyediakan berbagai node pemodelan visual untuk merancang alur dan mengembangkan node kustom.
Di PAI Flow, Anda dapat memilih node dari panel kiri, menyeretnya ke kanvas, lalu menghubungkan node-node tersebut untuk merancang alur.
Setelah merancang alur, klik sebuah node untuk mengonfigurasinya di panel kanan.
Jenis node
Node
Deskripsi
Source/Destination
Komponen Read Table membaca data dari tabel MaxCompute. Secara default, komponen ini membaca tabel dari proyek saat ini.
Komponen ini membaca file atau folder dari path di dalam
BucketObject Storage Service (OSS).Komponen ini mendukung pembacaan data file
CSVdariOSS,HTTP, dan Hadoop Distributed File System (HDFS).Komponen ini menulis data masukan ke
MaxCompute.retrieval-augmented generation (RAG) Data Processing
RAG Text Parsing and Splitting
Membaca dan mengurai file teks (seperti
HTML,PDF,Markdown, danText) di direktori input. Komponen ini menghasilkan blok teks berurutan yang tidak melebihi ukuran blok yang ditentukan dan menyimpannya ke path output yang ditentukan dalam formatJSONline.RAG Embedding Generation
Memuat semua file dokumen yang telah diurai dan dipisah (
format JSONline) dari direktori yang ditentukan. Komponen ini kemudian menggunakan modelEmbeddinguntuk menghasilkan text embedding.RAG Knowledge Base Index Synchronization
Menyinkronkan data input ke indeks basis pengetahuan tujuan.
CatatanSaat mengonfigurasi path file, Anda dapat menyertakan variabel dalam path tersebut. Contohnya:
https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${variable}/example.csv. Anda dapat menggunakan parameter penjadwalan sebagai variabel. Hal ini memungkinkan jadwal berulang untuk membaca dari atau menulis ke path penyimpanan yang berbeda.Setelah mengembangkan node, Anda dapat mengonfigurasi Scheduling Configuration untuk node PAI Flow di bilah alat sebelah kanan pada halaman orkestrasi alur. Konfigurasi ini memastikan bahwa node tersebut dijadwalkan secara berkala setelah dipublikasikan ke lingkungan produksi.
CatatanSaat mengonfigurasi penjadwalan, hanya kelompok sumber daya Serverless yang didukung sebagai kelompok sumber daya penjadwalan.
Publikasikan node PAI Flow
Setelah menguji node PAI Flow dan mengonfigurasi pengaturan penjadwalannya, Anda harus melakukan commit dan mempublikasikan node PAI Flow. Node tersebut kemudian akan berjalan secara berkala sesuai konfigurasi penjadwalan.
Untuk menyimpan node PAI Flow, klik Save di bilah alat bagian atas.
Setelah node disimpan, klik ikon
di bilah alat untuk membuka panel publikasi. Untuk informasi selengkapnya, lihat Publish tasks. Klik Publish to Production untuk mempublikasikan tugas.
Langkah selanjutnya
Setelah node PAI Flow dipublikasikan, klik Go to O&M di panel publikasi. Anda akan diarahkan ke halaman Recurring Tasks, tempat Anda dapat melihat status penjadwalan dan status Berjalan node tersebut.
Dalam grafik asiklik terarah (DAG), Anda hanya dapat melihat tugas internal setelah membuka node PAI Flow.