E-MapReduce(EMR)クラスタのヘルスチェック機能を使用して、クラスタのヘルスステータスを把握し、提案に基づいてクラスタの問題を解決できます。これにより、クラスタが正常な状態に保たれます。
注意事項
ヘルス診断機能は、DataLake、Dataflow、OLAP、DataServing、およびカスタムクラスタでのみ使用できます。詳細については、「クラスタの作成」をご参照ください。
ヘルス診断は、クラスタ内のノードとサービス(Hive、HDFS、YARN、ZooKeeperなど)のヘルスステータスを分析するために使用されます。診断結果に基づいて問題を特定し、提案に基づいて問題をトラブルシューティングできます。
日次クラスタレポートの表示
[モニタリングと診断] タブに移動します。
EMRコンソールにログインします。左側のナビゲーションペインで、 [EMR on ECS] をクリックします。
上部のナビゲーションバーで、クラスタが存在するリージョンとリソースグループをビジネス要件に基づいて選択します。
[EMR On ECS] ページで、目的のクラスタを見つけ、[クラスタID/名前] 列でクラスタの名前をクリックします。
表示されるページで、[モニタリングと診断] タブをクリックします。
[モニタリングと診断]監視と診断 タブで、 [日次クラスタレポート] サブタブをクリックします。クラスタのヘルスチェックレポートのリストを表示できます。
Daily Cluster Reports タブの [ヘルスステータス] 列には、クラスタのヘルスステータスが表示されます。
次の表は、各スコアの範囲に対応するヘルスステータスを示しています。
スコアの範囲
説明
0 <= x <= 60
クラスタは異常な状態です。できるだけ早くクラスタの問題を解決してください。
60 < x <= 80
クラスタは準正常な状態です。クラスタを最適化することをお勧めします。
80 < x <= 100
クラスタは正常な状態で、解決する必要のある問題はありません。
説明スコアはクラスタのヘルスステータスを示します。有効な値の範囲は 0 ~ 100 です。
日次クラスタレポートの詳細を表示します。
レポートの [アクション] 列の [レポートの表示] をクリックして、クラスタのレポートの詳細を表示します。
このページには、クラスタのヘルスステータスの概要と、ヘルスコア、クラスタID、レポートID、診断時間など、レポートに関する基本情報が表示されます。このページに表示される診断項目と診断項目の分析概要は、クラスタのタイプによって異なります。分析概要は、クラスタの問題の概要を示し、問題を直接表示します。診断項目の詳細を参照して、特定の問題の分析結果を取得できます。
コンピューティングリソースの分析
分析の詳細
このタブには、コンピューティングリソースの分析の詳細が表示されます。コンピューティングスコア、スキャンされたジョブの数、ジョブのヘルスステータスの分布など、クラスタのコンピューティングリソースの使用状況に関する基本情報を把握できます。このタブには、メモリ使用率の低下などの特定された問題も表示されます。問題が特定されたジョブに関する情報を確認して、問題を解決できます。
基本的なコンピューティング情報
このセクションには、クラスタコンピューティングスコアの傾向チャート、さまざまなタイプのエンジンによって消費されるクラスタメモリ(GB*秒)、およびさまざまなタイプのエンジンによって消費されるクラスタ vCPU(VCore*秒)の傾向チャートが表示されます。
次の表は、クラスタメモリとクラスタ vCPU に関する情報を示しています。
メトリック | 説明 |
[クラスタメモリ(GB*秒)] | クラスタ内のジョブによって消費されるクラスタメモリの合計。これは累積値であり、次の式を使用して計算されます。 |
[クラスタ Vcpu(vcore*秒)] | クラスタ内のジョブによって消費されるクラスタ vCPU の総数。これは累積値であり、次の式を使用して計算されます。 |
コンピューティング情報の分析
このセクションには、次のチャートが表示されます。
コンピューティングエンジンスコアの傾向チャート
コンピューティングエンジンジョブ数の傾向チャート
さまざまなタイプのエンジンによって消費されるメモリの円グラフ
さまざまなタイプのエンジンによって消費される vCPU の円グラフ
さまざまなユーザーが送信したジョブによって消費されるメモリの円グラフ
ジョブ情報
EMR Doctor はジョブを収集し、ジョブを処理および分析し、分析結果に基づいてクラスタの実行に影響を与える主要なジョブを表示します。ジョブで特定された問題を解決して、クラスタのコンピューティング効率を向上させ、クラスタの使用率と利益を向上させることができます。
このセクションには、最も多くのメモリ(GB*秒)を消費する上位 50 件のジョブと、スコア順に昇順でソートされた上位 50 件のジョブが表示されます。
HDFSストレージリソースの分析
デフォルトでは、EMR Doctor はストレージリソースに関する情報を収集しません。Hadoop Distributed File System(HDFS)または Hive ストレージリソースを分析する場合は、 [ヘルスチェック] タブの [日次クラスタレポート] タブで [ストレージリソースに関する情報の収集] をオンにするか、「構成」トピックに記載されている操作を実行して、ストレージリソースに関する情報を変更できます。
分析の詳細
このタブには、HDFSストレージリソースの分析の詳細が表示されます。分析の詳細では、ファイルの総数、保存データの総量など、クラスタリソースに関する基本情報について説明します。このタブには、小さなファイルの割合が高い、保存されているコールドデータの割合が高いなどの特定された問題も表示されます。問題の詳細セクションでは、特定の問題が特定されたディレクトリと、問題を解決する方法を表示できます。
基本的な HDFS 情報
[基本的な HDFS 情報] セクションでは、次の情報をチャートで表示できます。
保存データ量の傾向チャート
ファイル数の傾向チャート
HDFSストレージスコアの傾向チャート
ファイルの総数、保存データの総量、小さなファイルの数、非常に小さなファイルの数、保存されているコールドデータの量
HDFS 使用状況分析
[HDFS 使用状況分析] セクションでは、次の情報をチャートで表示できます。
さまざまな HDFS ユーザーによって消費されるストレージリソースの円グラフ
さまざまな HDFS ユーザーが使用するファイル数の円グラフ
さまざまな HDFS グループによって消費されるストレージリソースの円グラフ
さまざまな HDFS グループが使用するファイル数の円グラフ
さまざまなサイズの HDFS ファイルの分布の円グラフ
HDFS 内のコールドデータとホットデータの分布の円グラフ
レベル 1 の HDFS ディレクトリに保存されているデータの分布
HDFS ディレクトリに保存されているさまざまなサイズのファイルの分布
HDFS 内の小さなファイルは、NameNode への負荷とシャードの問題を引き起こす可能性があります。HDFS 内の小さなファイルの数は重要なメトリックです。 [ディレクトリファイルサイズ分布] セクションでは、各ディレクトリレベルの空のファイル、非常に小さなファイル、小さなファイル、中程度のファイル、大きなファイルの分布を表示できます。EMR Doctor を使用して、最大 4 レベルのディレクトリにドリルダウンできます。
次の表は、ファイルの定義を示しています。
ファイルタイプ | 説明 |
空のファイル | サイズが 0 のファイル。 |
非常に小さなファイル | サイズが 1 MB 未満のファイル。 |
小さなファイル | サイズが 128 MB 未満のファイル。 |
中程度のファイル | サイズが 128 MB 以上 1 GB 以下のファイル。 |
大きなファイル | サイズが 1 GB を超えるファイル。 |
[ディレクトリファイルサイズ分布] セクションには、次の情報が表示されます。
空のファイルの最大数を保存する特定のレベルの上位 N 個のディレクトリ
非常に小さなファイルの最大数を保存する特定のレベルの上位 N 個のディレクトリ
小さなファイルの最大数を保存する特定のレベルの上位 N 個のディレクトリ
中程度のファイルの最大数を保存する特定のレベルの上位 N 個のディレクトリ
大きなファイルの最大数を保存する特定のレベルの上位 N 個のディレクトリ
各表には、上位 N 個のディレクトリに関する情報(特定のパス、保存データの量、前日比、日次増加量など)が表示されます。
ディレクトリ内のコールドデータとホットデータの分布
コールドデータとは、長期間アクセスされていないデータのことです。コールドデータは、Object Storage Service(OSS)のコールドアーカイブストレージクラスなど、コールドスタンバイストレージモードに保存することをお勧めします。ディレクトリ内のコールドデータとホットデータの分布は、クラスタの使用状況を理解し、コストを削減するのに役立ちます。 [ディレクトリのコールドデータとホットデータの分布] セクションでは、各ディレクトリレベルの非常にコールドなデータ、コールドデータ、ウォームデータ、ホットデータの分布を表示できます。EMR Doctor を使用して、最大 4 レベルのディレクトリにドリルダウンできます。
データタイプ | 説明 |
非常にコールドなデータ | 3 か月以上アクセスされていないデータ。 |
コールドデータ | 1 か月以上アクセスされていないが、3 か月以内にアクセスされたデータ。 |
ウォームデータ | 7 日以上アクセスされていないが、1 か月以内にアクセスされたデータ。 |
ホットデータ | 過去 7 日間にアクセスされたデータ。 |
[ディレクトリのコールドデータとホットデータの分布] セクションには、次の情報が表示されます。
非常にコールドなデータの最大量を保存する特定のレベルの上位 N 個のディレクトリ
コールドデータの最大量を保存する特定のレベルの上位 N 個のディレクトリ
ウォームデータの最大量を保存する特定のレベルの上位 N 個のディレクトリ
ホットデータの最大量を保存する特定のレベルの上位 N 個のディレクトリ
各表には、上位 N 個のディレクトリに関する情報(特定のパス、保存データの量、前日比、日次増加量など)が表示されます。
HBase ストレージリソースの分析
分析の詳細
このタブには、HBase ストレージリソースの分析の詳細が表示されます。分析の詳細では、平均クラスタ負荷、クラスタパーティションのバランス度、RegionServer とユーザテーブルのヘルスステータスなど、HBase の使用状況に関する基本情報について説明します。このタブには、平均クラスタ負荷が高い、クラスタパーティションのバランス度が低い、RegionServer とユーザテーブルのヘルスステータスが異常などの特定された問題も表示されます。問題の詳細セクションでは、特定の問題が特定された RegionServer、テーブル、またはパーティションなどの情報と、問題を解決する方法を表示できます。
クラスタ概要分析
[クラスタ概要] セクションでは、次の情報をチャートで表示できます。
クラスタヘルススコアの傾向チャート
クラスタパーティションのバランス度の傾向チャート
さまざまな RegionServer のクラスタ内のパーティション数の円グラフ
クラスタリクエスト数の傾向チャート
テーブルの総数、パーティションの総数、ノードの総数、平均負荷、データの総量、読み取りリクエストの総数、書き込みリクエストの総数、リクエストの総数
RegionServer 関連情報
[RegionServer 関連情報] セクションには、RegionServer のキャッシュヒット率、平均 GC 期間、日次読み取り/書き込みリクエスト数などの詳細情報が表示されます。
キャッシュヒット率の昇順でソートされた RegionServer のランキング(テーブルヘッダー:RegionServer とキャッシュヒット率)
平均 GC 期間でソートされた RegionServer のランキング(テーブルヘッダー:RegionServer と平均 GC 期間)
日次読み取りリクエスト数でソートされた RegionServer のランキング(テーブルヘッダー:RegionServer と日次読み取りリクエスト数)
日次読み取りリクエストの前日比増加量でソートされた RegionServer のランキング(テーブルヘッダー:RegionServer と日次読み取りリクエストの前日比増加量)
日次書き込みリクエスト数でソートされた RegionServer のランキング(テーブルヘッダー:RegionServer と日次書き込みリクエスト数)
日次書き込みリクエストの前日比増加量でソートされた RegionServer のランキング(テーブルヘッダー:RegionServer と日次書き込みリクエストの前日比増加量)
テーブル関連情報
[テーブル関連情報] セクションには、テーブル内のホットパーティション、テーブル内のデータ量、テーブル内のパーティション数、テーブル内の読み取り/書き込みリクエスト数などの詳細情報が表示されます。
ホットパーティションを含むテーブルの詳細
パーティションのバランス度の昇順でソートされた上位 N 個のテーブル
パーティションの平均データ量の昇順でソートされた上位 N 個のテーブル
保存データ量でソートされた上位 N 個のテーブル
データストレージの前日比増加量でソートされた上位 N 個のテーブル
パーティション数でソートされた上位 N 個のテーブル
パーティションの前日比増加量でソートされた上位 N 個のテーブル
読み取りリクエスト数でソートされた上位 N 個のテーブル
読み取りリクエストの前日比増加量でソートされた上位 N 個のテーブル
書き込みリクエスト数でソートされた上位 N 個のテーブル
書き込みリクエストの前日比増加量でソートされた上位 N 個のテーブル
Hive ストレージリソースの分析
分析の詳細
このタブには、Hive ストレージリソースの分析の詳細が表示されます。分析の詳細では、Hive データベースの総数、Hive テーブルの総数、Hive テーブル内のファイルの総数、Hive に保存されているデータの総量など、Hive の使用状況に関する基本情報について説明します。このタブには、小さなファイルの割合が高い、保存されているコールドデータの割合が高い、ストレージ形式の分布が不均一などの特定された問題も表示されます。問題の詳細セクションでは、特定の問題が特定されたデータベースまたはテーブルと、問題を解決する方法を表示できます。
基本的な Hive 情報
このセクションには、ストレージリソースの使用量の傾向、ファイル量の傾向、スコアの傾向など、Hive ストレージリソースの使用状況に関する複数の一般的なストレージメトリックが表示されます。
Hive 使用状況分析
[Hive 使用状況分析] セクションでは、次の情報をチャートで表示できます。
さまざまな Hive データベースで消費されるストレージリソースの分布チャート
さまざまな Hive ユーザーによって保存されるデータの総量の分布チャート
Hive テーブル内のさまざまなサイズのファイルの分布の円グラフ
Hive テーブル内のコールドデータとホットデータの分布の円グラフ
Hive テーブルのストレージ形式の分布の円グラフ
Hive の詳細
[Hive 情報] セクションには、Hive データベースと Hive テーブルの詳細が表示されます。
Hive データベース情報
[Hive データベース情報] セクションには、次の情報が表示されます。
Hive データベースの詳細
さまざまなサイズのファイルの分布でソートされた上位 N 個の Hive データベース
コールドデータとホットデータの分布でソートされた上位 N 個の Hive データベース
ストレージ形式の分布でソートされた上位 N 個の Hive データベース
[Hive データベースの詳細] セクションには、次のデータが表示されます。
ストレージリソースの消費量でソートされた Hive データベースのランキング:名前、消費されたストレージリソース、前日比、日次増加量
ファイル数でソートされた Hive データベースのランキング:名前、ファイル数、前日比、日次増加量
スコアのランキング:スコアの件数
パーティション数でソートされた Hive データベースのランキング:名前、パーティション数、前日比、日次増加量
さまざまなサイズのファイルの分布でソートされた上位 N 個の Hive データベースに基づいて、次の情報を取得できます。
空のファイルの最大数を保存する上位 N 個の Hive データベース
非常に小さなファイルの最大数を保存する上位 N 個の Hive データベース
小さなファイルの最大数を保存する上位 N 個の Hive データベース
中程度のファイルの最大数を保存する上位 N 個の Hive データベース
大きなファイルの最大数を保存する上位 N 個の Hive データベース
Hive 内の小さなファイルは、NameNode への負荷とシャードの問題を引き起こす可能性があります。多数の小さなファイルは、コンピューティングプロセスを遅くする可能性があります。Hive 内の小さなファイルの数は重要なメトリックです。
コールドデータとホットデータの分布でソートされた上位 N 個の Hive データベースに基づいて、次の情報を取得できます。
非常にコールドなデータの最大量を保存する上位 N 個の Hive データベース
コールドデータの最大量を保存する上位 N 個の Hive データベース
ウォームデータの最大量を保存する上位 N 個の Hive データベース
ホットデータの最大量を保存する上位 N 個の Hive データベース
コールドデータとは、長期間アクセスされていないデータのことです。コールドデータは、OSS のコールドアーカイブストレージクラスなど、コールドスタンバイストレージモードに保存することをお勧めします。コールドデータとホットデータの分布は、クラスタの使用状況を理解し、コストを削減するのに役立ちます。
Hive はさまざまなストレージ形式をサポートしています。さまざまなストレージ形式は、さまざまなユースケースに適しています。ほとんどの場合、主流の列指向形式はストレージコストを削減し、クエリの効率を向上させます。
ストレージ形式の分布でソートされた上位 N 個の Hive データベースに基づいて、次の情報を取得できます。
TextFile 形式のデータの最大量を保存する上位 N 個の Hive データベース
Parquet 形式のデータの最大量を保存する上位 N 個の Hive データベース
ORC 形式のデータの最大量を保存する上位 N 個の Hive データベース
Hive テーブル情報
[Hive テーブル情報] セクションには、次の情報が表示されます。
Hive テーブルの詳細
さまざまなサイズのファイルの分布でソートされた上位 N 個の Hive テーブル
コールドデータとホットデータの分布でソートされた上位 N 個の Hive テーブル
ストレージ形式の分布でソートされた上位 N 個の Hive テーブル
詳細については、「Hive データベース情報」をご参照ください。