Isolasi Kerusakan
Platform for AI (PAI) membagi wilayah menjadi beberapa zona. Setiap zona merupakan area terisolasi dengan pasokan daya dan jaringannya sendiri.
Zona dalam wilayah yang sama dihubungkan melalui jaringan internal berlatensi rendah. Untuk memastikan insiden di satu zona tidak memengaruhi operasi zona lainnya, isolasi kerusakan diaktifkan antar zona.
Toleransi Kesalahan Elastis
PAI menyediakan AIMaster, yaitu mesin toleransi kesalahan elastis yang mendukung pelaksanaan pekerjaan Deep Learning Container (DLC). Saat menggunakan AIMaster untuk pekerjaan DLC, instans AIMaster diluncurkan untuk berjalan bersamaan dengan instans pekerjaan lainnya. Instans AIMaster memantau kemajuan pekerjaan serta mengelola toleransi kesalahan dan alokasi sumber daya.
Pemeriksaan Kesehatan
Fitur pemeriksaan kesehatan DLC memungkinkan Anda memeriksa status kesehatan dan performa sumber daya komputasi yang digunakan untuk menjalankan pekerjaan DLC. Fitur ini dapat diaktifkan saat membuat pekerjaan DLC. Jika diaktifkan, sistem secara otomatis memeriksa sumber daya terkait, mengisolasi node bermasalah, dan memicu proses O&M otomatis di latar belakang. Fitur ini mengurangi kegagalan pada tahap awal dan meningkatkan laju keberhasilan pekerjaan. Setelah pemeriksaan selesai, sistem memberikan laporan uji tentang kemampuan komputasi dan performa komunikasi GPU terkait. Laporan tersebut dapat digunakan untuk mengidentifikasi risiko potensial yang dapat memengaruhi performa pelatihan, sehingga meningkatkan efisiensi pemecahan masalah. Untuk informasi lebih lanjut, lihat Pemeriksaan Kesehatan.
Pemantauan Infrastruktur
Anda dapat menggunakan CloudMonitor untuk membangun dan memperkuat sistem pertahanan keamanan Anda. CloudMonitor menyediakan fitur berikut untuk PAI:
Pemantauan inferensi untuk modul Elastic Algorithm Service (EAS) dari PAI: Untuk informasi lebih lanjut, lihat Lihat EAS events in CloudMonitor.