Anda dapat mengintegrasikan PAI Designer dengan DataWorks untuk menjadwalkan eksekusi pipeline secara offline. Hal ini memungkinkan Anda memperbarui model secara berkala dan mengotomatiskan proses pelatihan model. Topik ini menjelaskan cara menggunakan DataWorks untuk menjadwalkan pipeline PAI Designer serta menyinkronkan model PAI ke OSS secara otomatis sebagai bagian dari tugas terjadwal.
Prasyarat
-
Semua node dalam pipeline harus telah berhasil dijalankan.
-
Anda telah mengaktifkan DataWorks dan membuat alur kerja. Untuk informasi selengkapnya, lihat Buat alur kerja.
Alur kerja tersebut harus berada dalam ruang kerja yang sama dengan pipeline PAI Designer. Jika tidak, Anda tidak dapat memilih alur kerja yang telah dibuat dari daftar drop-down Path saat membuat tugas penjadwalan offline.
-
Jika ruang kerja DataWorks Anda berada dalam mode standar, Anda harus menyinkronkan model yang dilatih secara offline ke lingkungan produksi sebelum menjalankan tugas penjadwalan periodik. Hal ini karena data MaxCompute terisolasi antara lingkungan pengembangan dan produksi. Untuk informasi selengkapnya, lihat Jadwalkan pipeline prediksi batch secara periodik.
Prosedur
Rasio antara pipeline PAI Designer dan node DataWorks Designer adalah 1:N. Anda dapat membuat beberapa node tipe Designer di DataWorks berdasarkan satu pipeline PAI Designer.
-
Buka Visualized Modeling, pilih ruang kerja untuk membuka halaman PAI Designer, lalu klik ganda pipeline target untuk membukanya.
-
(Opsional) Jika Anda perlu menyinkronkan model Designer ke OSS selama penjadwalan periodik, tambahkan komponen ekspor model.
-
Pada tab Pipeline Attributes, atur parameter Data Storage ke path OSS tempat Anda ingin menyimpan model.
-
Untuk mengekspor file model dalam format PMML, klik komponen model target (misalnya, Logistic Regression for Binary Classification), buka tab Field Settings, lalu pilih Whether To Generate PMML.
CatatanLangkah ini dapat dilewati jika komponen tersebut tidak mendukung fitur tersebut atau jika Anda tidak memerlukan file PMML.
-
Sambungkan komponen Model Export di downstream komponen model. Untuk detail konfigurasi, lihat Model Export.
-
-
Gunakan DataWorks untuk menjadwalkan eksekusi offline pipeline PAI Designer.
-
Di pojok kiri atas kanvas, klik Periodic Scheduling, lalu klik Create Scheduling Node. Tindakan ini akan mengarahkan Anda ke DataWorks untuk penjadwalan offline. Pada kotak dialog Create Node, masukkan nama node lalu klik Confirm.
-
Pada halaman pengeditan node, pilih pipeline PAI Designer Anda dari daftar drop-down Select PAI Designer Pipeline.
Jika Anda perlu memodifikasi pipeline PAI Designer, klik Edit in PAI Designer untuk membuka halaman pengeditan pipeline. Setelah memilih pipeline, Anda dapat mengklik Reload untuk merefresh kontennya atau mengklik Edit in PAI Designer untuk mengedit pipeline di PAI Designer.
-
Klik Properties di sisi kanan area pengeditan node untuk mengonfigurasi properti penjadwalan node tersebut. Untuk informasi selengkapnya, lihat Konfigurasi properti penjadwalan node.
Panel Properties mencakup bagian-bagian seperti General, Scheduling Parameter, Schedule, Resource Group, dan Dependencies. Anda dapat mengonfigurasi siklus penjadwalan pada bagian Schedule. DataWorks kemudian akan menjalankan tugas node tersebut secara otomatis berdasarkan siklus yang telah dikonfigurasi.
CatatanPenjadwalan DataWorks kadang-kadang melaporkan error "Start Container timeout". Ini biasanya merupakan masalah timeout sementara. Kami menyarankan agar Anda mengaktifkan Auto Rerun upon Failure saat mengonfigurasi properti penjadwalan. Saat diaktifkan, sistem penjadwalan akan secara otomatis mencoba ulang tugas yang gagal (kecuali yang dihentikan secara manual) berdasarkan jumlah percobaan ulang dan interval yang telah dikonfigurasi.
-
Klik ikon
dan
pada bilah alat secara berurutan. Ikuti petunjuk di layar untuk menyimpan dan meng-commit node tersebut.Jika ruang kerja Anda berada dalam mode standar, setelah node di-commit, klik Deploy di bagian atas halaman. Untuk informasi selengkapnya, lihat Deploy nodes.
-
Klik Operation Center di bagian atas halaman untuk melihat status eksekusi dan log operasional tugas pembelajaran mesin.
Anda juga dapat melakukan operasi seperti backfill dan uji coba pipeline. Untuk informasi selengkapnya, lihat Kelola tugas terjadwal.
-
Referensi
-
PAI Designer memungkinkan Anda menggunakan komponen Update EAS Service (Beta) untuk memperbarui layanan model online sesuai jadwal. Untuk informasi selengkapnya, lihat Jadwalkan pembaruan untuk layanan model online.