All Products
Search
Document Center

Platform For AI:Keamanan infrastruktur

Last Updated:Mar 07, 2026

Keamanan infrastruktur PAI mencakup isolasi antar-zona, toleransi kesalahan, pemeriksaan kesehatan, dan pemantauan.

Isolasi kesalahan antar-zona

Zona adalah area fisik dalam suatu wilayah yang memiliki catu daya dan jaringan independen.

Zona dalam wilayah yang sama dihubungkan oleh jaringan internal berlatensi rendah. PAI menerapkan isolasi kesalahan antar zona sehingga kegagalan pada satu zona tidak memengaruhi operasi zona lainnya. Setiap wilayah bersifat independen, dan zona di wilayah berbeda sepenuhnya terisolasi satu sama lain.

Toleransi kesalahan otomatis elastis

PAI menyediakan pemantauan toleransi kesalahan berbasis AIMaster. AIMaster adalah komponen tingkat task. Saat diaktifkan untuk suatu task, sebuah instans AIMaster akan dimulai dan dijalankan bersama instans task lainnya untuk memantau task, mendeteksi kesalahan, dan mengontrol sumber daya. Untuk informasi selengkapnya, lihat AIMaster: Mesin toleransi kesalahan otomatis elastis.

Pemeriksaan kesehatan daya komputasi

DLC menyediakan sanity check untuk pelatihan AI guna memverifikasi kesehatan dan kinerja sumber daya komputasi pada task pelatihan terdistribusi. Aktifkan fitur ini saat membuat task pelatihan DLC. Sanity check memeriksa seluruh sumber daya pelatihan, secara otomatis mengisolasi node yang bermasalah, dan memicu proses O&M otomatis di latar belakang. Hal ini membantu mengurangi masalah sejak tahap awal dan meningkatkan tingkat keberhasilan pelatihan. Setelah selesai, sistem menghasilkan laporan mengenai daya komputasi GPU dan kinerja komunikasi, yang membantu mengidentifikasi serta melokalisasi elemen penyebab penurunan kinerja dan meningkatkan efisiensi diagnosis masalah. Untuk petunjuk lengkap, lihat SanityCheck: Pemeriksaan kesehatan daya komputasi.

Pemantauan infrastruktur

Integrasikan dengan Cloud Monitor untuk membangun dan memperkuat sistem pertahanan keamanan. Topik terkait: