Topik ini menjelaskan item pemeriksaan dan data deret waktu utama Hive.
Tingkat keparahan
- P0: Kritis. Jika terjadi kesalahan tingkat P0, layanan Hive tidak tersedia. Anda harus segera memecahkan masalah tersebut.
- P1: Tinggi. Jika terjadi kesalahan tingkat P1, layanan Hive tersedia, tetapi performanya mungkin rendah atau beban kerja mungkin tinggi. Anda harus segera memecahkan masalah tersebut.
Item pemeriksaan terkait HiveServer
Ketersediaan: inspection_hive_server_availability
- Pemeriksaan gagal dan kesalahan
hive server availability permission check is faileddilaporkan.Ini menunjukkan bahwa pengguna tidak memiliki izin untuk menjalankan pernyataan yang digunakan untuk memeriksa HiveServer. Sebagai contoh, izin yang diberikan kepada pengguna secara tidak sengaja dicabut.
- Pemeriksaan gagal dan kesalahan
Hive server availability is faileddilaporkan.Ini menunjukkan bahwa HiveServer tidak normal. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
Ketersediaan tinggi: inspection_hive_server_ha
- Jika pesan
Hive server HA status is OKdikembalikan, semua komponen HiveServer dalam keadaan normal. - Jika pesan
One or more Hive server faileddikembalikan, satu atau lebih komponen HiveServer tidak normal. Ini adalah kesalahan tingkat P1. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah. - Jika pesan
All Hive server are faileddikembalikan, semua komponen HiveServer tidak normal. Ini adalah kesalahan tingkat P0. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
Keberadaan port: inspection_hive_server_port
Anda dapat menggunakan item pemeriksaan ini untuk memeriksa apakah port 10000 dari komponen HiveServer ada di mesin. Jika port 10000 tidak ada, proses HiveServer dalam keadaan tidak normal. Dalam hal ini, Anda harus memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
Pengumpulan sampah: inspection_hive_server_gc
- Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 95%, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveServer. Jika tidak, komponen HiveServer mungkin di-restart, dan pekerjaan mungkin gagal.
- Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 90%, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveServer. Jika tidak, komponen HiveServer mungkin di-restart, dan pekerjaan mungkin gagal.
- Jika penggunaan memori heap JVM lebih rendah dari 90%, Anda dapat memutuskan apakah akan menyesuaikan ukuran memori komponen HiveServer berdasarkan kebutuhan bisnis Anda.
Jumlah restart: inspection_hive_server_restart
- Jika komponen HiveServer di-restart berulang kali dalam lima menit, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
- Jika komponen HiveServer di-restart sekali dalam lima menit, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera memeriksa proses HiveServer dan log proses tersebut untuk memecahkan masalah.
- Dalam skenario lainnya, komponen HiveServer tetap dalam keadaan normal.
Item pemeriksaan terkait HiveMetaStore
Ketersediaan tinggi: inspection_hive_metastore_ha
- Jika pesan
Hive metastore HA status is OKdikembalikan, semua komponen HiveMetaStore dalam keadaan normal. - Jika pesan
One or more metastore faileddikembalikan, satu atau lebih komponen HiveMetaStore tidak normal. Ini adalah kesalahan tingkat P1. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah. - Jika pesan
All Hive metastore are faileddikembalikan, semua komponen HiveMetaStore tidak normal. Ini adalah kesalahan tingkat P0. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
Keberadaan port: inspection_hive_metastore_port
Anda dapat menggunakan item pemeriksaan ini untuk memeriksa apakah port 9083 dari komponen HiveMetaStore ada di mesin. Jika port 9083 tidak ada, proses HiveMetaStore dalam keadaan tidak normal. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
Pengumpulan sampah: inspection_hive_metastore_gc
- Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 95%, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveMetaStore.
- Jika penggunaan memori heap JVM lebih besar dari atau sama dengan 90%, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera menambah ukuran memori komponen HiveMetaStore.
- Jika penggunaan memori heap JVM lebih rendah dari 90%, Anda dapat memutuskan apakah akan menyesuaikan ukuran memori komponen HiveMetaStore berdasarkan kebutuhan bisnis Anda.
Jumlah restart: inspection_hive_metastore_restart
- Jika komponen HiveMetaStore di-restart berulang kali dalam lima menit, terjadi kesalahan tingkat P0. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
- Jika komponen HiveMetaStore di-restart sekali dalam lima menit, terjadi kesalahan tingkat P1. Dalam hal ini, Anda harus segera memeriksa proses HiveMetaStore dan log proses tersebut untuk memecahkan masalah.
- Dalam skenario lainnya, komponen HiveMetaStore tetap dalam keadaan normal.
Data deret waktu utama HiveServer
Anda dapat melihat data deret waktu utama komponen HiveServer2 pada tab Pemantauan kluster Anda di konsol E-MapReduce (EMR).
- Metrik Terkait Sesi
OpenSessions dan ActiveSessions: Anda dapat melihat jumlah sesi yang dibuka atau sesi aktif. Dengan cara ini, Anda dapat memeriksa apakah sejumlah besar tugas sedang berjalan ketika kesalahan terjadi dan menyesuaikan ukuran memori berdasarkan kebutuhan bisnis Anda.
- Metrik Terkait JVM
JVM MemHeapMax dan metrik terkait GC: Anda dapat melihat metrik JVM dalam periode waktu ketika kesalahan terjadi untuk menentukan apakah akan menyesuaikan ukuran memori.
- Metrik Terkait Tugas
Tugas TERTUNDA, ActiveRunTasksCalls, dan metrik terkait TasksCount: Jika sejumlah besar tugas tertunda, Anda harus memeriksa apakah memori proses HiveServer dan sumber daya penjadwalan antrian sumber daya YARN cukup, atau apakah pekerjaan besar menguasai sejumlah besar sumber daya. Sebagai contoh, tugas tertunda bisa menjadi tugas yang kemajuannya ditangguhkan.
Data deret waktu utama HiveMetaStore
Anda dapat melihat data deret waktu utama komponen HiveMetaStore pada tab Pemantauan kluster Anda di konsol EMR.
- Metrik Terkait JVM
JVM MemHeapMax dan metrik terkait GC: Anda dapat melihat metrik JVM dalam periode waktu ketika kesalahan terjadi untuk menentukan apakah akan menyesuaikan ukuran memori.
- Metrik Terkait Operasi Metadata
Jika metrik GetTable dan metrik CreateTable Time cenderung meningkat atau terjadi pengecualian terkait, Anda harus memeriksa apakah terjadi hambatan untuk memori komponen HiveMetaStore atau performa database backend. Metrik-metrik ini digunakan untuk mengukur periode waktu yang diperlukan untuk melakukan operasi terkait metadata. Anda dapat menyesuaikan ukuran memori komponen HiveMetaStore berdasarkan ukuran memori saat ini atau meningkatkan spesifikasi database backend berdasarkan periode waktu yang diperlukan untuk menjalankan query pada database.