Flink Advisor が提供するインテリジェントデプロイ診断機能は、デプロイのヘルスステータスを監視し、デプロイの例外ログ、例外、およびリスクを分析および診断し、診断結果に基づいて最適化の提案を提供するために使用されます。この機能は、ビジネスの安定性と信頼性を保証します。このトピックでは、インテリジェントデプロイ診断機能の使用方法について説明します。
背景情報
Flink Advisor が提供するインテリジェントデプロイ診断機能は、デプロイのヘルスステータスを監視し、実行中のデプロイのヘルススコアをリアルタイムで確認するために使用されます。ヘルススコアの満点は 100 です。この機能は、過去 30 分間のデプロイステータスを分析し、確認されたリスクの数とリスクレベルに基づいてデプロイのヘルススコアを減点します。この機能は、ドラフト開発から Realtime Compute for Apache Flink のデプロイ O&M まで、デプロイを管理および診断するのに役立ちます。インテリジェントデプロイ診断機能により、システムは、デプロイのライフサイクル中に、Realtime Compute for Apache Flink デプロイのすべてのログ、イベント、メトリック、および構成をリアルタイムで分析できます。この機能を使用して、ドラフトの例外ログを診断し、実行中のデプロイのヘルススコアを確認し、Realtime Compute for Apache Flink デプロイで頻繁に発生する問題に関する Alibaba Cloud の技術専門家の O&M 経験に基づいて、異常なデプロイの根本原因を検出できます。診断が完了すると、Realtime Compute for Apache Flink は診断結果に基づいて最適化の提案を提供します。これにより、データ分析に必要な時間と平均修復時間(MTTR)が短縮され、デプロイの安定性とヘルスステータスが保証されます。次の図は、インテリジェントデプロイ診断機能の機能を示しています。
制限事項
ストリーミングデプロイのみがインテリジェントデプロイ診断機能をサポートしています。バッチデプロイはこの機能をサポートしていません。
例外ログの診断
ドラフトの例外ログの診断
Realtime Compute for Apache Flink の 管理コンソール にログインします。管理するワークスペースを見つけ、[コンソール] 列の [アクション] をクリックします。
左側のナビゲーションペインで、
を選択します。表示されるページで、ドラフトを作成し、SQL ステートメントを記述して、[検証] をクリックします。ドラフトの SQL セマンティクス、ネットワーク接続、およびドラフトで使用されるテーブルのメタデータ情報を確認します。計算結果の [SQL アドバイス] をクリックして、SQL リスクと関連する最適化の提案に関する情報を表示することもできます。
SQL エディターページの下部で、エラーの詳細、考えられる原因、および最適化の提案を表示します。
説明構文チェックの結果に基づいてエラーの原因を特定し、最適化の提案を取得できない場合は、関連するログを選択し、[ドキュメント内を検索] をクリックして、ドキュメント内の関連情報を見つけることができます。
デプロイの例外ログの診断
Realtime Compute for Apache Flink の 管理コンソール にログインします。管理するワークスペースを見つけ、[コンソール] 列の [アクション] をクリックします。
左側のナビゲーションペインで、
を選択します。[デプロイ] ページで、管理するデプロイの名前をクリックします。[ログ] タブをクリックします。[ログ] タブの左側のペインで、[ログ]、[起動ログ]、および [JM 例外] をクリックして、デプロイのログを表示します。
詳細については、「デプロイの起動ログと操作ログの表示」、「デプロイの例外ログの表示」、および「履歴デプロイのログの表示」をご参照ください。
異常なデプロイでインテリジェントデプロイ診断を実行する
[診断] タブに移動します。
Realtime Compute for Apache Flink の 管理コンソール にログインします。管理するワークスペースを見つけ、[コンソール] 列の [アクション] をクリックします。
左側のナビゲーションペインで、
を選択します。[デプロイ] ページで、管理するデプロイの名前をクリックします。[診断] タブに移動します。
次のいずれかの方法で [診断] タブに移動できます。
デプロイリストで、管理するデプロイを見つけ、[ヘルス] 列のデプロイのスコアをクリックします。
次の表は、デプロイのヘルススコアのの色と意味を示しています。
色
説明
スコアの範囲
緑
デプロイのヘルスステータスは良好です。デプロイに潜在的なリスクは存在しません。具体的な構成の提案が提供される場合があります。
80 以上
黄
デプロイに特定の問題または潜在的なリスクが存在します。デプロイを確認する必要があります。
60 ~ 80
赤
デプロイで深刻な問題が検出されており、対処する必要があります。できるだけ早く問題に対処しないと、デプロイがキャンセルされる可能性があります。これはビジネスの継続性に影響します。
60 未満
[デプロイ] ページで、管理するデプロイを見つけ、その名前をクリックします。表示されるページで、[診断] タブをクリックします。
[診断] をクリックします。
Flink Advisor は、Flink 例外ログ用にさまざまなログリポジトリを提供します。診断タイプ、診断フェーズ、診断項目、および処理方法の詳細については、このトピックの「Flink Advisor 診断項目」セクションを参照してください。
診断結果と最適化の提案を表示します。
最適化の提案を適用する場合は、最適化の提案の右側にある [適用] をクリックします。
Flink Advisor 診断項目
タイプ | フェーズ | 診断項目 | 説明 |
例外(デプロイの実行に影響します。) | 起動 | 起動ファイル分析 | 必要な JAR パッケージが Object Storage Service(OSS)ディレクトリに存在しない場合、デプロイを開始できません。この問題を解決するには、デプロイを開始する前に JAR パッケージを再度アップロードします。 |
リソース分析 | 残りの使用可能リソースが不足している場合、デプロイを開始できません。この問題を解決するには、デプロイのリソース構成の値を減らすか、デプロイが属するクラスターをスケールアウトします。 | ||
コンテナネットワークインターフェース(CNI)をデプロイにバインドできない場合、デプロイを開始できません。この問題を解決するには、関連する vSwitch の IP アドレスの数が上限に達しているかどうかを確認します。 | |||
Elastic Network Interface(ENI)の IP アドレスの数が上限を超えている場合、デプロイを開始できません。ENI の数を増やして再試行することをお勧めします。 | |||
トポロジーネットワーク分析 | TaskManager と JobManager の間にネットワーク接続が確立されていない場合、デプロイは異常です。 | ||
過去 10 分以内に ENI を Elastic Compute Service(ECS)インスタンスにバインドする操作がタイムアウトした場合、デプロイの開始速度が遅くなります。しばらく待つことをお勧めします。 | |||
アップストリームおよびダウンストリームサービスのネットワーク分析 | Transmission Control Protocol(TCP)ポート検出は正常ですが、アップストリームまたはダウンストリームコネクタが接続されていない場合、デプロイを開始できません。アップストリームおよびダウンストリームサービスのネットワーク構成を確認することをお勧めします。 | ||
アップストリームおよびダウンストリームサービスの権限検出 | アップストリームデータソースが接続されていない場合、デプロイを開始できません。アップストリームサービスの権限構成を確認することをお勧めします。 | ||
ダウンストリームデータソースが接続されていない場合、デプロイを開始できません。ダウンストリームサービスの権限構成を確認することをお勧めします。 | |||
起動速度分析 | デプロイの JAR パッケージが大きすぎる場合、デプロイの開始速度が遅くなります。JAR パッケージを圧縮して再度アップロードするか、しばらくお待ちください。 | ||
JobGraph チェック | 以前のバージョンの Realtime Compute for Apache Flink の構成ファイルが見つからない場合があります。この問題が発生した場合、デプロイがフェイルオーバーを実行した後、デプロイが回復しない可能性があります。この問題を解決するには、デプロイを手動でキャンセルしてから開始します。 | ||
セッションクラスターチェック | 以前のバージョンの Realtime Compute for Apache Flink のセッションクラスターが異常である可能性があります。この問題が発生した場合、デプロイは異常です。 | ||
実行アイコン | 高可用性(HA)ステータスチェック | デプロイで HA が有効になっていない場合、デプロイの障害後にデプロイを回復できません。この問題を解決するには、デプロイのドラフトを再度公開し、デプロイを手動でキャンセルしてから開始します。 | |
チェックポイントチェック | 以前のバージョンの Realtime Compute for Apache Flink のチェックポイント機能が異常である可能性があります。この問題が発生した場合、チェックポイントの作成に失敗する可能性があります。 | ||
アップストリームおよびダウンストリームサービスの権限検出 | TCP ポート検出は正常ですが、アップストリームまたはダウンストリームコネクタが接続されていない場合、デプロイを開始できません。アップストリームおよびダウンストリームサービスの権限構成を確認することをお勧めします。 | ||
実行ステータスチェック | デプロイの TaskManager で OutOfMemory(OOM)エラーが発生した場合、デプロイはフェイルオーバーを実行します。デプロイ構成を確認し、TaskManager のメモリを増やすことをお勧めします。 | ||
キャンセル | キャンセル速度分析 | 以前のバージョンの Realtime Compute for Apache Flink では、デプロイのキャンセルプロセスが遅くなります。デプロイのキャンセル速度が遅い場合は、デプロイを手動でキャンセルしてから開始します。 | |
リスク(デプロイの実行に影響しません。) | 構成 | JobGraph チェック | デプロイの現在のステータスは正常です。ただし、システムは、以前のバージョンの Realtime Compute for Apache Flink の構成ファイルが見つからない可能性があることを検出しました。その結果、デプロイが失敗した後、デプロイを回復できません。この問題を解決するには、デプロイを手動でキャンセルしてから開始します。 |
HA ステータスチェック | デプロイの現在のステータスは正常です。ただし、システムは、デプロイで HA が有効になっていないことを検出しました。その結果、デプロイが失敗した後、デプロイを回復できません。この問題を解決するには、デプロイのドラフトを再度公開し、デプロイを手動でキャンセルしてから開始します。 | ||
バージョンチェック | デプロイの現在のステータスは正常です。ただし、システムは、現在のバージョンの Realtime Compute for Apache Flink に重大な欠陥を検出しました。 | ||
実行アイコン | チェックポイントチェック | デプロイの現在のステータスは正常です。ただし、システムは、以前のバージョンの Realtime Compute for Apache Flink でチェックポイントの例外によって引き起こされる可能性のある安定性の問題を検出しました。 | |
デプロイの現在のステータスは正常です。ただし、システムは、長時間チェックポイントが作成されていないことを検出しました。 | |||
キャンセル速度分析 | デプロイの現在のステータスは正常です。ただし、システムは、以前のバージョンの Realtime Compute for Apache Flink でデプロイのキャンセル速度が遅くなる可能性のあるリスクを検出しました。この問題を解決するには、デプロイを手動でキャンセルしてから開始します。 | ||
ランタイム環境分析 |
| ||
バージョンチェック | バージョンはサービス終了(EOS)です。安定性の問題が発生したり、効果的な製品サポートが提供されない場合があります。詳細については、「コンソール操作」をご参照ください。 |
参照
実行中の JobManager と TaskManager のパフォーマンスを表示できます。詳細については、「デプロイパフォーマンスの監視」をご参照ください。
システムでリソースを自動的または定期的に再構成する場合は、自動チューニングを構成できます。詳細については、「自動チューニングの構成」をご参照ください。
デプロイ構成と Flink SQL ロジックを最適化することにより、Realtime Compute for Apache Flink SQL デプロイのパフォーマンスを向上させることができます。詳細については、「Flink SQL の最適化」をご参照ください。