Saat menggunakan collector data Simple Log Service untuk mengumpulkan log, Anda mungkin mengalami masalah seperti kegagalan parsing ekspresi reguler, jalur file salah, atau lalu lintas yang melebihi kapasitas pemrosesan shard. Simple Log Service menyediakan fitur diagnostik untuk membantu mengidentifikasi kesalahan pengumpulan. Untuk pemantauan waktu nyata terhadap collector data, Anda dapat memanfaatkan aturan peringatan bawaan guna menerima notifikasi melalui saluran seperti DingTalk.
Prasyarat
Anda telah mengumpulkan log menggunakan collector data Simple Log Service. Untuk informasi selengkapnya, lihat Kumpulkan log dari host.
Diagnostik masalah waktu proses
Diagnostik waktu proses tersedia dalam edisi Premium dan Basic:
Diagnostik Premium (direkomendasikan): Menyediakan dasbor diagnosis exception yang menampilkan exception terkait collector data secara jelas dan mendukung kueri dalam rentang waktu yang lebih panjang.
Diagnostik Basic: Menyediakan informasi exception pengumpulan dari satu jam terakhir.
Skenario
Status collector data abnormal: kegagalan heartbeat, proses aktif tidak berjalan, atau exception SSL Certificate.
Exception pengumpulan log: Log tidak terkumpulkan, latensi terlalu tinggi, atau parsing gagal, seperti kesalahan Regex Match.
Kesalahan konfigurasi: Jalur file salah, alamat IP kelompok mesin tidak sesuai, atau masalah izin cross-account.
Bottleneck performa: Laju pengumpulan mendekati atau melebihi batas default, misalnya 20 MB/s, sehingga menyebabkan log terbuang.
Masalah pengumpulan log kontainer: Pod sering restart atau rotasi log sangat cepat sehingga menyebabkan pengumpulan tidak lengkap.
Masalah plugin dan pengumpulan kustom: Kegagalan pada plugin kustom, seperti parsing Grok, atau masalah pada pengumpulan sumber data HTTP.
Loss log merupakan potensi masalah keandalan data yang dapat terjadi jika LoongCollector tidak berjalan atau kecepatan rotasi log terlalu cepat.
Prosedur
Masuk ke Konsol Simple Log Service. Di daftar Project, klik Project tujuan.
Klik
Log Storage. Di daftar Logstore, arahkan kursor ke Logstore tujuan, lalu klik ikon
.Klik Premium Diagnostics atau Basic Diagnostics untuk melihat informasi diagnostik.
Lihat informasi diagnostik.
Diagnostik Basic
Panel Log Collection Errors menampilkan daftar semua kesalahan pengumpulan Logtail untuk Logstore tersebut. Anda dapat mengklik kode kesalahan untuk melihat detailnya. Untuk informasi selengkapnya, lihat Kesalahan pengumpulan data umum di Simple Log Service.
Diagnostik Premium
Pada halaman Logtail Exception Monitoring, lihat informasi seperti Active Clients dan All Error Information. Untuk informasi selengkapnya tentang dasbor Collection Exception Monitoring, lihat Lihat laporan data. Untuk informasi selengkapnya tentang kode kesalahan, lihat Kesalahan pengumpulan data umum di Simple Log Service.
Setelah menyelesaikan masalah, periksa apakah ada error baru. Anda dapat mengabaikan error historis, yang tetap ditampilkan hingga masa berlakunya habis. Pastikan tidak ada error baru yang muncul setelah masalah terselesaikan. Logtail melaporkan pesan error setiap 10 menit.
Untuk melihat log lengkap yang gagal diparse dan dibuang, lihat log operasional LoongCollector pada jalur berikut:
Skenario Host: File
/usr/local/ilogtail/ilogtail.LOGdi server.Skenario Kontainer: File
/usr/local/ilogtail/loongcollector.LOGdi dalam kontainer.
Pemantauan kesehatan
Simple Log Service menyediakan kebijakan peringatan bawaan untuk pemantauan waktu nyata terhadap collector data. Anda dapat mengonfigurasi kebijakan ini untuk memenuhi kebutuhan pemantauan berikut:
Pantau heartbeat collector data yang abnormal
Kueri log
__topic__:logtail_statusdiinternal-diagnostic_loguntuk menghitung jumlah mesin dengan heartbeat Logtail normal. Kemudian, Anda dapat mengonfigurasi aturan peringatan untuk memicu notifikasi jika jumlah heartbeat turun di bawah nilai yang diharapkan. Hal ini membantu Anda memecahkan masalah pada mesin yang mati atau mengalami gangguan jaringan.Peringatan anomaly collector data
Jalankan pernyataan kueri
__topic__: logtail_alarmuntuk menganalisis jumlah berbagai jenis error yang terjadi dalam 15 menit terakhir, seperti file tidak dapat dibaca, izin tidak mencukupi, dan kegagalan parsing. Hal ini membantu Anda segera mengidentifikasi dan menyelesaikan masalah konfigurasi guna mencegah loss log.Pantau bottleneck performa
Gunakan dasbor Logtail Exception Monitoring untuk memantau status waktu proses dan penggunaan resource Logtail, seperti CPU dan memori. Dasbor ini menampilkan jumlah klien Logtail aktif, daftar restart, dan semua pesan error. Hal ini membantu Anda mengidentifikasi bottleneck performa atau restart abnormal.
Pantau pengumpulan log terpusat
Gunakan dasbor Logtail File Collection Monitoring untuk memantau status pengumpulan log dalam skenario multi-akun atau multi-Wilayah. Dasbor ini menampilkan jumlah file yang dikumpulkan, latensi rata-rata, dan laju kegagalan parsing. Hal ini membantu memastikan kelangsungan pengumpulan log.
Prosedur
Konfigurasikan kebijakan tindakan. Kebijakan tindakan menentukan cara mengirim notifikasi saat status peringatan pemantauan berubah.
Masuk ke Konsol Simple Log Service.
Di daftar Project, temukan Project tempat Anda mengaktifkan log penting, lalu klik nama Project tersebut.
Di panel navigasi sebelah kiri, klik
Alerts. Pada halaman Alert Center, pilih tab .Di daftar kebijakan tindakan, temukan kebijakan tindakan
sls.app.logtail.builtindan klik Modify di kolom Actions.Pada dialog Edit Action Policy, pilih saluran dan konfigurasikan seperti yang dijelaskan dalam Saluran notifikasi. Lalu, klik Confirm.
Buat Aturan Peringatan: Membuat aturan pemantauan yang memicu peringatan saat status kesehatan LoongCollector mencapai ambang batas tertentu.
Pada halaman Alert Center, klik Alert Rules, lalu klik ikon
di sebelah kanan Create Alert.Klik Create from Template. Pada panel Create from Template, klik Logtail Error Monitoring di bawah All Templates. Pada panel di sebelah kanan, klik kartu target.
Pada panel Create Alert, tinjau konfigurasi. Aturan pemantauan peringatan bawaan mencakup parameter yang telah ditetapkan. Klik OK. Untuk informasi selengkapnya tentang parameter konfigurasi, lihat Buat aturan peringatan.