ローカル＆セッションクラスターによるリアルタイムタスクのデバッグとコード検証 - Dataphin

Dataphin は、開発されたリアルタイムタスクコードのローカルデバッグまたはセッションクラスタデバッグのためにデータサンプリングまたは手動アップロードをサポートしており、コードタスクの正確性を確保し、人為的なミスや漏れを防ぎます。このトピックでは、リアルタイムタスクをデバッグする方法について説明します。

デバッグ方法

ローカルデバッグ方法: この方法は、クラスタを介したデバッグは行わず、デバッグ用のデータはストリーミングデータではありません。比較的速いですが、手動でのデータのアップロードまたは入力が必要であり、特定のデータソースの自動サンプリングのみをサポートします。
セッションクラスタデバッグ方法: この方法は、セッションクラスタを介したデバッグを行い、実際のオンラインデータとストリーミングデータを使用します（つまり、データがソーステーブルに書き込まれると、そのデータの計算結果が直接出力され、実際のオンライン実行タスクの結果と一致するようになります）。この方法では、セッションクラスタは Flink タスクのステータス、ログ、および出力結果のリアルタイム表示を提供し、タスクの動作と出力を観察することでタスクの正確性を検証できます。これにより、タスクコードの反復的な変更とデバッグがサポートされ、問題を迅速に特定して解決できます。
説明
セッションクラスタデバッグ方法のデバッグ結果は、結果テーブルには書き込まれません。

制限事項

Blink は、エンジンバージョン 3.6.0 以上でのみローカルデバッグをサポートします。
DataStream タスクはデバッグではサポートされていません。
セッションクラスタデバッグ方法は、現在、オープンソースの Flink エンジンを使用し、最新アーキテクチャに基づいてデプロイされているお客様のみをサポートしています。詳細については、プロダクト運用チームにお問い合わせください。

タスクのデバッグ操作エントリ

Dataphin ホームページで、トップメニューバーの [開発] をクリックします。
以下の図の操作ガイドに従って、デバッグするタスクを選択し、タスクの [デバッグ構成] ダイアログボックスを開きます。
現在、シングルモードデバッグのみがサポートされています。モードを選択した後、対応するモードテーブルデータをサンプリングしてデバッグします。
- [リアルタイムモードデバッグ]: 対応するリアルタイム物理テーブルデータをサンプリングします。データサンプリングが完了したら、FLINK ストリームモードローカルデバッグまたはセッションクラスタデバッグでリアルタイムモードのデバッグを実行します。具体的な操作については、「」をご参照ください。
- [オフラインモードデバッグ]: 対応するオフライン物理テーブルデータをサンプリングします。データサンプリングが完了したら、FLINK バッチモードでローカルデバッグを実行します。具体的な操作については、「オフラインモードデバッグ」をご参照ください。

リアルタイムモードデバッグ

[デバッグ構成] ダイアログボックスの [サンプリングモードの選択] タブで、[リアルタイムモード - Flink ストリームタスク] を選択します。
[次へ] をクリックします。
デバッグ構成ダイアログボックスで、デバッグデータソースを選択します。
- 手動でデータをアップロードする (ローカルデバッグ方法)
  これは、ローカルデバッグ方法でデバッグするために手動でデータをアップロードすることを伴います。データのアップロード方法には、[サンプルデータファイルのアップロード]、[データの手動入力]、[データの自動サンプリング] があります。
  - サンプルデータファイルを手動でアップロードする
    データをアップロードすることで、ローカルデータを手動でアップロードできます。ローカルデータをアップロードする前に、最初にサンプルをダウンロードする必要があります。サンプルは、Dataphin によって生成された CSV 形式のサンプルテンプレートであり、読み取りテーブルと書き込みテーブル、およびテーブルのスキーマ情報を自動的に識別します。ダウンロードしたサンプルに従って、アップロードするデータを編集できます。[アップロード] をクリックすると、データは [メタデータサンプリング] 領域に自動的に入力されます。
  - データの手動入力
    これは、収集されたデータが比較的小さい場合、または収集されたデータを変更する必要がある場合に適しています。
  - データの自動サンプリング
    自動的にサンプリングされたデータはランダムであるため、収集されたデータに制限がないシナリオに適しています。データの自動サンプリングは、HBase、MySQL、MaxCompute、DataHub、Kafka データソースでサポートされています。[自動サンプリング] をクリックしてデータをサンプリングできます。
    説明
    Kafka は、json、csv、canal-json、maxwell-json、debezium-json データ形式の自動サンプリングをサポートしています。
    Kafka の自動サンプリングは、認証なしとユーザー名 + パスワード認証方式のみをサポートし、SSL はサポートしていません。
    Kafka の自動サンプリング中は、読み取るデータ範囲を選択でき、最大 100 エントリをサンプリングできます。
すべてのデータテーブルのメタデータサンプリングが完了したら、[OK] をクリックします。
[結果] ページで、[デバッグ結果] を表示できます。
- 手動でデータをアップロードする (ローカルデバッグ方法)
- オンラインデータを収集する (セッションクラスタデバッグ方法)

オフラインモードデバッグ

[デバッグ構成] ダイアログボックスの [サンプリングモードの選択] タブで、[オフラインモード - Flink バッチタスク] を選択します。
[次へ] をクリックします。
デバッグ構成ダイアログボックスで、デバッグデータソースを選択します。
- データを手動でアップロードする (ローカルデバッグ方法)
  これは、ローカルデバッグ方法を使用してデバッグするためにデータを手動でアップロードすることを伴います。データアップロード方法には、[サンプルデータファイルの手動アップロード]、[データの手動入力]、[データの自動サンプリング] が含まれます。
  - サンプルデータファイルを手動でアップロードする
    データをアップロードすることで、ローカルデータを手動でアップロードできます。ローカルデータをアップロードする前に、最初にサンプルをダウンロードする必要があります。サンプルは Dataphin によって生成された CSV 形式のサンプルテンプレートで、読み取りテーブルと書き込みテーブル、およびテーブルのスキーマ情報を自動的に識別します。ダウンロードしたサンプルに従ってアップロードするデータを編集できます。[アップロード] をクリックすると、データは [メタデータサンプリング] 領域に自動的に入力されます。
  - データの手動入力
    これは、収集されたデータが比較的小さい、または収集されたデータを変更する必要があるシナリオに適しています。
  - データの自動サンプリング
    自動的にサンプリングされたデータはランダムであるため、特定のデータ要件がないシナリオに最適です。HBase、MySQL、MaxCompute、DataHub、および Kafka データソースで自動データサンプリングを使用できます。[自動サンプリング] をクリックしてデータサンプリングに進みます。
    説明
    Kafka は、json、csv、canal-json、maxwell-json、debezium-json データ形式の自動サンプリングをサポートしています。
    Kafka の自動サンプリングは、認証なしとユーザー名 + パスワード認証方式と互換性がありますが、SSL はサポートしていません。
    Kafka の自動サンプリングでは、サンプリング中にデータ範囲を選択でき、最大 100 レコードまでサンプリングできます。
すべてのデータテーブルのメタデータサンプリングが完了したら、ページ下部の [OK] をクリックします。
[結果] ページで、[デバッグデータ]、[中間結果]、[デバッグ結果] を確認できます。

付録: 自動的にサンプリングされたデバッグデータ

ローカルデバッグに自動サンプリングを使用する場合、デバッグデータはメタテーブル構成によって決定されます。以下を考慮してください:

タスクのデバッグ中は、メタテーブルの [デフォルトの読み取り] プロパティを [開発テーブル] に設定する必要があります。
- タスクが Project_Name_dev.meta_table_name を参照する場合、開発メタテーブルがサンプリングされます。データソースに開発メタテーブルが存在しない場合、[自動サンプリング] は使用できません。
- タスクが Project_Name.meta_table_name を使用する場合、本番メタテーブルが自動的にサンプリングされます。本番環境でこのテーブルに対する権限がない場合は、エラーが発生します。本番テーブルへのアクセスをリクエストする必要があります。詳細については、「テーブル権限を申請する」をご参照ください。
- タスクが ${Project_Name}.meta_table_name または meta_table_name を参照する場合、開発メタテーブルがサンプリングされます。開発メタテーブルが使用できない場合、[自動サンプリング] はサポートされていません。
タスクのデバッグ中にメタテーブルの [デフォルトの読み取り] プロパティが [本番テーブル] に設定されている場合:
- タスクが Project_Name_dev.meta_table_name を参照する場合、開発テーブルがサンプリングされます。データソースに開発メタテーブルがない場合、[自動サンプリング] は使用できません。
- タスクが Project_Name.meta_table_name を参照する場合、本番メタテーブルがサンプリングされます。
- タスクが ${Project_Name}.meta_table_name または meta_table_name を参照する場合、システムはパラメータ設定に基づいて ${project_name} 変数を置き換えます。パラメータで指定された実際のプロジェクト (開発または本番) によって、本番メタテーブルまたは開発メタテーブルのどちらが使用されるかが決定されます。${project_name} が設定されていない場合、デフォルトでは本番メタテーブルがサンプリングされます。

デバッグ方法

制限事項

タスクのデバッグ操作エントリ

リアルタイム モード デバッグ

オフライン モード デバッグ

付録: 自動的にサンプリングされたデバッグ データ

リアルタイムモードデバッグ

オフラインモードデバッグ

付録: 自動的にサンプリングされたデバッグデータ