Saat menggunakan LoongCollector untuk mengumpulkan log, Anda mungkin mengalami masalah seperti kegagalan penguraian ekspresi reguler, jalur file yang salah, atau lalu lintas melebihi kapasitas pemrosesan shard. Simple Log Service menyediakan fitur diagnostik untuk membantu mengidentifikasi kesalahan pengumpulan LoongCollector. Untuk pemantauan waktu nyata, Anda dapat menggunakan aturan peringatan bawaan untuk menerima notifikasi melalui saluran seperti DingTalk.
Prasyarat
Anda telah mengumpulkan log menggunakan LoongCollector. Untuk informasi lebih lanjut, lihat Kumpulkan log dari host.
Diagnosa masalah runtime
Diagnostik LoongCollector tersedia dalam edisi Pro dan Basic:
Diagnosis Pro (Direkomendasikan): Menyediakan dasbor diagnosis pengecualian. Dasbor tersebut menampilkan dengan jelas pengecualian LoongCollector dan mendukung kueri dalam rentang waktu yang lebih panjang.
Diagnosis Dasar: Menyediakan informasi pengecualian pengumpulan dari satu jam terakhir.
Skenario
Status LoongCollector abnormal: Kegagalan detak jantung, proses tidak aktif, atau pengecualian SSL Certificate.
Pengecualian pengumpulan log: Log tidak dikumpulkan, latensi terlalu tinggi, atau penguraian gagal, seperti akibat kesalahan pencocokan ekspresi reguler.
Kesalahan konfigurasi: Jalur file yang salah, alamat IP kelompok mesin tidak cocok, atau masalah izin lintas akun.
Hambatan performa: Tingkat pengumpulan mendekati atau melebihi batas default, seperti 20 MB/s, yang menyebabkan log hilang.
Masalah pengumpulan log kontainer: Restart Pod yang sering atau rotasi log cepat yang mengakibatkan pengumpulan tidak lengkap.
Masalah plugin dan pengumpulan kustom: Kegagalan plugin kustom, seperti penguraian Grok, atau masalah dengan pengumpulan sumber data HTTP.
Masalah keandalan data: Hilangnya log, yang dapat terjadi jika LoongCollector tidak berjalan atau rotasi log terlalu cepat.
Prosedur
Masuk ke Konsol Layanan Log Sederhana. Dalam daftar Proyek, klik proyek tujuan.
Klik
Penyimpanan Log. Dalam daftar Logstores, gerakkan pointer mouse ke atas Logstore tujuan, lalu klik ikon
.Sesuai kebutuhan, klik Pro Diagnosis atau Basic Diagnosis untuk melihat informasi diagnostik.
Lihat informasi diagnostik.
Diagnosis dasar
Panel Log Collection Errors menampilkan daftar semua kesalahan pengumpulan LoongCollector untuk Logstore. Anda dapat mengklik kode kesalahan untuk melihat detailnya. Untuk informasi lebih lanjut, lihat Kesalahan Umum untuk Pengumpulan Data di Simple Log Service.
Diagnosis Pro
Di halaman LoongCollector/Logtail Exception Monitoring, Anda dapat melihat informasi seperti Active Clients dan All Error Messages. Untuk informasi lebih lanjut tentang dasbor Collection Exception Monitoring, lihat Lihat Laporan Data. Untuk informasi lebih lanjut tentang kode kesalahan, lihat Kesalahan Umum untuk Pengumpulan Data di Simple Log Service.
Setelah Anda menyelesaikan masalah, periksa adanya kesalahan baru. Anda dapat mengabaikan kesalahan historis, yang ditampilkan hingga kedaluwarsa. LoongCollector melaporkan pesan kesalahan setiap interval 10 menit.
Untuk melihat log lengkap yang dihapus karena kegagalan penguraian, periksa log runtime LoongCollector. Jalurnya adalah sebagai berikut:
Skenario Host: File
/usr/local/ilogtail/loongcollector.LOGdi server.Skenario Kontainer: File
/usr/local/ilogtail/loongcollector.LOGdi kontainer.
Monitor status runtime
Simple Log Service menyediakan kebijakan peringatan bawaan untuk pemantauan waktu nyata LoongCollector. Anda dapat mengonfigurasi kebijakan ini jika memiliki kebutuhan pemantauan berikut:
Memantau detak jantung LoongCollector yang abnormal
Jalankan kueri
__topic__:logtail_statuslog diinternal-diagnostic_loguntuk menghitung jumlah mesin dengan detak jantung LoongCollector normal. Anda kemudian dapat mengonfigurasi aturan peringatan untuk memicu peringatan jika jumlah detak jantung turun di bawah nilai yang diharapkan. Ini membantu Anda menyelesaikan masalah pada mesin yang mati atau memiliki masalah jaringan.Buat peringatan untuk kesalahan pengumpulan LoongCollector
Jalankan pernyataan pencarian
__topic__: logtail_alarmuntuk menganalisis jumlah jenis kesalahan yang berbeda yang terjadi dalam 15 menit terakhir, seperti file yang tidak dapat dibaca, izin tidak mencukupi, dan kegagalan penguraian. Ini membantu Anda segera mengidentifikasi dan menyelesaikan masalah konfigurasi untuk mencegah hilangnya log.Memantau hambatan performa
Gunakan dasbor Pemantauan Pengecualian Logtail untuk memantau status runtime dan penggunaan sumber daya LoongCollector, seperti CPU dan memori. Dasbor menampilkan jumlah LoongCollector aktif, daftar restart, dan semua pesan kesalahan. Ini membantu Anda mengidentifikasi hambatan performa atau restart abnormal.
Memantau pengumpulan log terpusat
Gunakan dasbor Pemantauan Pengumpulan File LoongCollector untuk memantau status pengumpulan log dalam skenario multi-akun atau multi-wilayah. Dasbor menampilkan jumlah file yang dikumpulkan, latensi rata-rata, dan tingkat kegagalan penguraian. Ini membantu memastikan kelangsungan pengumpulan log.
Prosedur
Konfigurasikan kebijakan tindakan. Kebijakan tindakan mendefinisikan cara mengirim notifikasi ketika status peringatan pemantauan berubah.
Masuk ke Konsol Layanan Log Sederhana.
Dalam daftar Proyek, temukan Proyek tempat Anda mengaktifkan log penting dan klik nama Proyek.
Di panel navigasi di sebelah kiri, klik
Alerting. Di halaman Alert Center, klik tab .Dalam daftar kebijakan tindakan, temukan kebijakan tindakan
sls.app.logtail.builtindan klik Modify di kolom Actions.Di kotak dialog Edit Action Policy, pilih dan konfigurasikan saluran sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Saluran Notifikasi. Lalu, klik OK.
Buat aturan peringatan. Aturan peringatan menentukan kondisi pemantauan. Peringatan dipicu ketika status runtime LoongCollector memenuhi ambang batas yang ditentukan.
Di halaman Alert Center, klik Alert Rules, lalu klik ikon
di sebelah kanan Create Alert.Klik Create From Template. Di panel Create From Template, di bawah Semua Template, klik Logtail Error Monitoring. Di panel di sebelah kanan, klik kartu target.
Di panel Create Alert, tinjau parameter preset untuk aturan pemantauan peringatan bawaan dan klik OK. Untuk informasi lebih lanjut tentang parameter konfigurasi, lihat Buat Aturan Pemantauan Peringatan.