全部产品
Search
文档中心

Platform For AI:Lihat EAS events di CloudMonitor

更新时间:Jul 06, 2025

Elastic Algorithm Service (EAS) mendefinisikan dua jenis insiden di CloudMonitor: Insiden Layanan dan Insiden ServiceInstance. Pengontrol insiden EAS mendorong kedua insiden tersebut ke CloudMonitor secara real-time. Anda dapat melihat insiden, melakukan operasi O&M, mengaudit insiden, atau mengonfigurasi aturan peringatan untuk insiden melalui konsol CloudMonitor atau API.

Lihat EAS events

Gunakan konsol

Ikuti langkah-langkah berikut untuk melihat EAS events di konsol CloudMonitor:

  1. Masuk ke Konsol Monitor Cloud.

  2. Di panel navigasi sisi kiri, pilih Event Center > System Event.

  3. Pada tab Event Monitoring, pilih PAI dari daftar drop-down produk, lalu klik Search.

    image

  4. Klik Details di kolom Actions pada insiden target untuk melihat detail insiden. Contoh:image

    Parameter

    Parameter

    Deskripsi

    Produk

    Kode layanan. Sebagai contoh, kode Platform for AI (PAI) adalah learn.

    Nama

    Nama insiden, lihat kolom Name di EAS events yang didukung.

    Tingkat

    Tingkat insiden. Nilai valid:

    • INFO

    • WARN

    • CRITICAL

    Status

    Status insiden, lihat kolom Status di EAS events yang didukung.

    RegionId

    ID wilayah layanan. Sebagai contoh, ID wilayah China (Shanghai) adalah cn-shanghai.

    ResourceId

    ID sumber daya, lihat Deskripsi Kebijakan.

    InstanceName

    Nama layanan atau nama instance layanan.

    Waktu

    Waktu terjadinya insiden, dalam format timestamp UNIX milidetik.

    GroupId

    Grup aplikasi CloudMonitor tempat layanan EAS termasuk. Secara default, parameter ini kosong.

    Konten

    Konten inti dari insiden.

    • Insiden tingkat layanan: string.

    • Insiden tingkat instance layanan: dalam format JSON. Lihat Bidang parameter Konten.

    Bidang parameter Konten

    Parameter

    Deskripsi

    serviceName

    Nama layanan dari instance.

    serviceId

    ID layanan dari instance.

    serviceGroup

    Grup layanan tempat instance termasuk.

    resourceType

    Jenis grup sumber daya tempat instance termasuk. Nilai valid:

    • PublicResource: grup sumber daya publik.

    • DedicatedResource: grup sumber daya khusus.

    instanceType

    Tipe instance.

    cpu

    Jumlah CPU yang digunakan oleh instance.

    memory

    Penggunaan memori instance. Unit: MB.

    gpu

    Jumlah GPU yang digunakan oleh instance.

    gpuMemory

    Penggunaan Memori GPU instance. Unit: GB.

    nvidiaName

    Nama GPU yang digunakan oleh instance.

    role

    Peran layanan instance. Nilai valid:

    • Queue: layanan antrian.

    • DataLoader: layanan offline.

    • Standard: layanan standar.

    isBurst

    Menentukan apakah penyesuaian otomatis diaktifkan untuk grup sumber daya instance. Nilai valid:

    • false

    • true

    isSpot

    Menentukan apakah instance adalah instance preemptible. Nilai valid:

    • false

    • true

    callerUid

    UID akun Alibaba Cloud yang digunakan untuk menyebarkan layanan EAS.

    timestamp

    Waktu startup terakhir kontainer.

    restartCount

    Jumlah kali instance di-restart.

    exitCode

    Kode status keluar instance. Secara default, parameter ini kosong.

    status

    Status instance. Untuk informasi tentang nilai valid, lihat kolom Status di EAS events yang didukung.

    reason

    Alasan mengapa insiden terjadi.

    message

    Pesan insiden.

Gunakan API

Panggil DescribeSystemEventAttribute untuk melihat EAS events.

Buat dan aktifkan aturan peringatan

Gunakan konsol

  1. Buat aturan peringatan yang dipicu oleh insiden sistem. Konfigurasikan parameter kunci berikut:

    • Product Type: Pilih PAI.

    • Event Type: Pilih ServiceInstance atau Service.

    • Event Level: Pilih satu atau lebih tingkat insiden.

    • Event Name: Pilih satu atau lebih nama insiden yang ingin dimonitor, yaitu kolom Name di EAS events yang didukung.

    • Keyword Filtering: Atur kata kunci untuk mencocokkan konten dalam informasi insiden guna menyaring insiden yang dilanggan.

    image

  2. Konfigurasikan callback untuk peringatan yang dipicu oleh insiden sistem (lama).

Gunakan API

Gunakan API untuk membuat aturan peringatan yang dipicu oleh insiden dan aktifkan aturan.

FAQ

Apakah instance layanan merujuk pada layanan inferensi atau instance pod?

Tipe insiden Service mewakili insiden tingkat layanan. Tipe insiden ServiceInstance mewakili insiden tingkat instance layanan. Dalam konteks ini, instance layanan merujuk pada instance pod.

Lampiran: EAS events yang didukung

EAS mendefinisikan insiden tingkat layanan dan insiden tingkat instance layanan sebagai berikut.

Tipe

Nama

Tingkat Insiden

Status Insiden

ServiceInstance

EAS:ServiceInstance:Running

INFO

Running

EAS:ServiceInstance:Pending

INFO

Pending

EAS:ServiceInstance:Completed

INFO

Completed

EAS:ServiceInstance:Terminating

INFO

Terminating

EAS:ServiceInstance:Terminated

INFO

Terminated

EAS:ServiceInstance:Unknown

WARN

Unknown

EAS:ServiceInstance:Evicted

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

CRITICAL

Error

EAS:ServiceInstance:Failed

CRITICAL

Failed

EAS:ServiceInstance:SpotToBeReleased

WARN

SpotToBeReleased

Service

EAS:Service:ReplicasChanged

INFO

ReplicasChanged

EAS:Service:StatusChanged

INFO

StatusChanged

EAS:Service:Unavailable

CRITICAL

Unavailable

EAS:Service:UpdateFailed

CRITICAL

UpdateFailed