E-MapReduce: Periksa item dan metrik utama Hive - E-MapReduce

Dokumen ini mencakup item pemeriksaan kesehatan dan metrik pemantauan utama untuk HiveServer dan HiveMetaStore di kluster E-MapReduce (EMR).

Tingkat keparahan

Level	Makna	Aksi yang diperlukan
P0 (Critical)	Layanan Hive tidak tersedia	Segera lakukan pemecahan masalah
P1 (High)	Layanan Hive tersedia tetapi kinerjanya menurun atau workload meningkat	Segera lakukan pemecahan masalah

Item pemeriksaan HiveServer

inspection_hive_server_availability

Memeriksa ketersediaan HiveServer dengan menjalankan serangkaian pernyataan validasi.

Pesan error	Penyebab	Aksi
`hive server availability permission check is failed`	Pengguna tidak memiliki izin untuk menjalankan pernyataan pemeriksaan HiveServer (misalnya, izin tersebut tidak sengaja dicabut)	Kembalikan izin yang diperlukan
`Hive server availability is failed`	HiveServer mengalami anomali	Periksa proses dan log HiveServer

inspection_hive_server_ha

Memeriksa status high availability (HA) seluruh komponen HiveServer.

Pesan hasil	Status	Tingkat keparahan	Aksi
`Hive server HA status is OK`	Semua komponen HiveServer normal	—	Tidak perlu tindakan
`One or more Hive server failed`	Satu atau lebih komponen HiveServer mengalami anomali	P1	Periksa proses dan log HiveServer
`All Hive server are failed`	Semua komponen HiveServer mengalami anomali	P0	Periksa proses dan log HiveServer

inspection_hive_server_port

Memeriksa keberadaan port 10000 HiveServer pada host. Jika port tersebut tidak tersedia, proses HiveServer mengalami anomali. Periksa proses dan log HiveServer.

inspection_hive_server_gc

Memeriksa metrik memory.heap.usage pada Java Virtual Machine (JVM) untuk HiveServer.

Penggunaan memori heap JVM	Tingkat keparahan	Aksi
≥ 95%	P0	Segera tingkatkan memori HiveServer. Jika tidak, HiveServer mungkin restart dan job yang sedang berjalan dapat gagal.
≥ 90%	P1	Segera tingkatkan memori HiveServer. Jika tidak, HiveServer mungkin restart dan job yang sedang berjalan dapat gagal.
< 90%	Normal	Sesuaikan memori berdasarkan kebutuhan bisnis jika diperlukan.

inspection_hive_server_restart

Memantau frekuensi restart HiveServer dalam jendela waktu lima menit.

Perilaku restart	Tingkat keparahan	Aksi
Restart berulang dalam lima menit	P0	Segera periksa proses dan log HiveServer
Satu kali restart dalam lima menit	P1	Segera periksa proses dan log HiveServer
Tidak ada restart	Normal	Tidak perlu tindakan

Item pemeriksaan HiveMetaStore

inspection_hive_metastore_ha

Memeriksa status high availability (HA) seluruh komponen HiveMetaStore.

Pesan hasil	Status	Tingkat keparahan	Tindakan
`Hive metastore HA status is OK`	Semua komponen HiveMetaStore normal	—	Tidak perlu tindakan
`One or more metastore failed`	Satu atau lebih komponen HiveMetaStore mengalami anomali	P1	Segera periksa proses dan log HiveMetaStore
`All Hive metastore are failed`	Semua komponen HiveMetaStore mengalami anomali	P0	Segera periksa proses dan log HiveMetaStore

inspection_hive_metastore_port

Memeriksa keberadaan port 9083 HiveMetaStore pada host. Jika port tersebut tidak tersedia, proses HiveMetaStore mengalami anomali. Segera periksa proses dan log HiveMetaStore.

inspection_hive_metastore_gc

Memeriksa metrik memory.heap.usage pada JVM untuk HiveMetaStore.

Penggunaan memori heap JVM	Tingkat keparahan	Aksi
≥ 95%	P0	Segera tingkatkan memori HiveMetaStore
≥ 90%	P1	Segera tingkatkan memori HiveMetaStore
< 90%	Normal	Sesuaikan memori berdasarkan kebutuhan bisnis jika diperlukan.

inspection_hive_metastore_restart

Memantau frekuensi restart HiveMetaStore dalam jendela waktu lima menit.

Perilaku restart	Tingkat keparahan	Aksi
Restart berulang dalam lima menit	P0	Segera periksa proses dan log HiveMetaStore
Satu kali restart dalam lima menit	P1	Segera periksa proses dan log HiveMetaStore
Tidak ada restart	Normal	Tidak perlu tindakan

Metrik utama HiveServer2

Lihat metrik ini pada tab Monitoring kluster Anda di Konsol EMR.

Kategori	Metrik	Yang perlu diperhatikan
Session	OpenSessions, ActiveSessions	Lonjakan jumlah session terbuka atau aktif saat terjadi error dapat mengindikasikan tekanan memori. Sesuaikan memori berdasarkan kebutuhan bisnis Anda.
JVM	JVM MemHeapMax, metrik garbage collection (GC)	Tinjau metrik JVM dalam jendela waktu saat error terjadi untuk menentukan apakah perlu menambah memori.
Task	task PENDING, ActiveRunTasksCalls, metrik TasksCount	Jumlah task pending yang besar dapat mengindikasikan memori HiveServer tidak mencukupi, kontensi antrian sumber daya YARN, atau job besar yang mengonsumsi sebagian besar sumber daya yang tersedia. Misalnya, task pending adalah task yang progresnya ditangguhkan.

Metrik utama HiveMetaStore

Lihat metrik ini pada tab Monitoring kluster Anda di Konsol EMR.

Kategori	Metrik	Yang perlu diperhatikan
JVM	JVM MemHeapMax, metrik GC	Tinjau metrik JVM dalam jendela waktu saat error terjadi untuk menentukan apakah perlu menambah memori.
Operasi metadata	Metrik terkait GetTable, Waktu CreateTable	Peningkatan stabil pada metrik ini atau adanya exception mengindikasikan bottleneck memori pada HiveMetaStore atau masalah kinerja pada database backend. Tingkatkan memori HiveMetaStore berdasarkan ukuran memori saat ini, atau upgrade spesifikasi database backend berdasarkan waktu yang dibutuhkan untuk menjalankan kueri pada database tersebut.