すべてのプロダクト
Search
ドキュメントセンター

Realtime Compute for Apache Flink:2022 年 5 月 16 日

最終更新日:Jan 07, 2025

このトピックでは、Realtime Compute for Apache Flink のリリースノートについて説明し、関連するリファレンスへのリンクを提供します。リリースノートでは、2022 年 5 月 16 日にリリースされたバージョンの Realtime Compute for Apache Flink の主要な更新とバグ修正を提供します。

概要

Ververica Runtime (VVR) 4.0.13 は、2022 年 5 月 16 日に正式にリリースされました。このバージョンは Apache Flink V1.13 をベースに開発されています。このバージョンには、次の機能更新が含まれています。1. シャードデータベースの複数のテーブルからデータを同期するシナリオでは、データレイクおよびデータウェアハウスへのリアルタイムデータの取り込み機能に基づいて、シャードデータベースの複数のテーブルのマージと同期が最適化されます。最適化後、Realtime Compute for Apache Flink は、データベースシャード内の同じ名前のテーブルのデータをマージし、Hologres 宛先データベースの各ソーステーブルに対応する名前のテーブルにデータを同期できます。2. Kafka カタログがサポートされています。Kafka カタログを登録し、Flink SQL ジョブのトピックをソーステーブルまたは結果テーブルとして直接使用できます。3. Hologres コネクタを使用して、完全同期を実行してから増分同期を実行して、ジョブのバイナリログデータを使用できます。これにより、エンドツーエンドのデータ同期とリアルタイムのデータウェアハウスを効率的に実行できます。4. ApsaraDB for Redis コネクタを使用すると、ApsaraDB for Redis の結果テーブルの Time to Live (TTL) を設定できます。5. 複数タイプのコネクタの機能強化がリリースされました。6. 特定の操作のユーザーエクスペリエンスが向上しました。たとえば、セッションクラスターの停止、ドキュメントの表示、Realtime Compute for Apache Flink の開発コンソールの [ログ] タブでのログの表示、サービス通知の表示などができます。Apache Flink コミュニティで修正されたいくつかの不具合と、フルマネージド Flink のいくつかの不具合がこのバージョンで修正されています。

新機能

機能

説明

リファレンス

Kafka カタログのサポート

Kafka カタログを使用して、Kafka メッセージを自動的に解析してテーブル情報を推測できます。これにより、DDL ステートメントを実行することなく、Kafka クラスターのトピックに直接アクセスできます。Kafka カタログを使用して JSON 形式のメッセージを解析し、トピックスキーマを取得することもできます。これにより、Flink SQL の開発効率と精度が向上します。

Kafka JSON カタログの管理

CREATE DATABASE AS を使用したシャードデータベースの複数テーブルのデータ同期

正規表現を使用してデータベース名を定義し、データソースの複数のデータベースシャード内のソーステーブルと一致させることができます。データベースシャード内のデータがマージされた後、各ソーステーブルに対応する名前の下流の宛先テーブルにデータを同期できます。これにより、データベースシャードにおけるデータ同期の効率が向上します。

CREATE DATABASE AS ステートメント

Hologres コネクタを使用したソーステーブルの完全および増分データ使用

Hologres コネクタを使用して、Hologres ソーステーブルから完全データを同期してから、スムーズに増分データの同期に切り替えて、バイナリログデータを使用できます。これにより、リアルタイムデータウェアハウスのデータパイプラインを構築する際に、データを効率的に同期できます。

Hologres ソーステーブルの作成

ApsaraDB for Redis 結果テーブルのキーの TTL

ほとんどの場合、ApsaraDB for Redis データベースのデータに有効期限を設定する必要があります。この場合、ApsaraDB for Redis 結果テーブルにデータを書き込むときに、キーの TTL を設定できます。

ApsaraDB for Redis 結果テーブルの作成

MaxCompute Streaming Tunnel のサポート、および MaxCompute Streaming Tunnel または Batch Tunnel に基づくデータ圧縮

MaxCompute Streaming Tunnel を使用して、ストリーミングモードで MaxCompute にデータを書き込むことができます。ジョブで Exactly-Once セマンティクスを使用する必要がない場合は、MaxCompute Streaming Tunnel を使用して、チェックポイントの作成速度が遅いときに発生するパフォーマンスの問題を防ぐことができます。また、トンネルを使用してデータを圧縮することで、データ転送効率を向上させることができます。

Hologres コネクタでサポートされている DataStream API

Hologres DataStream コネクタがサポートされています。

-

retry_on_conflict (Elasticsearch コネクタでサポート)

Elasticsearch 結果テーブルのデータを更新する場合、retry_on_conflict パラメーターを設定して、バージョン競合が原因で発生する再試行の最大回数を指定できます。

Elasticsearch 結果テーブルの作成

Flink CDC 2.2 と MySQL CDC コネクタおよび Postgres CDC コネクタとの互換性

MySQL Change Data Capture (CDC) コネクタと Postgres CDC コネクタは、Flink CDC 2.2 のすべての機能と互換性があります。Flink CDC 2.2 のすべての不具合も、このバージョンの Realtime Compute for Apache Flink で修正されています。

なし

ソースから読み取られるバイナリログファイルの最新位置を識別するために使用されるハートビートイベント

ハートビートイベントは、ソースから読み取られるバイナリログファイルの最新位置を識別するために使用されます。この方法は、MySQL の更新頻度の低いテーブルに有効です。ソースは、更新イベントではなくハートビートイベントに基づいてバイナリログファイルの位置を進めることができます。これにより、バイナリログファイルの位置の期限切れを防ぐことができます。

MySQL CDC ソーステーブルの作成

UNSIGNED FLOAT、DOUBLE、および DECIMAL データ型のサポート

UNSIGNED FLOAT、DOUBLE、および DECIMAL データ型は、MySQL CDC コネクタと MySQL カタログでサポートされています。

MySQL CDC ソーステーブルの作成

MySQL CDC コネクタの JDBC パラメーターの設定

MySQL インスタンスにアクセスするために、MySQL CDC コネクタの Java Database Connectivity (JDBC) パラメーターを設定できます。

MySQL CDC ソーステーブルの作成

セッションクラスターの強制終了

セッションクラスターは、リソースを節約するために広く使用されています。ただし、セッションクラスターのアーキテクチャ制限により、本番環境の安定性に影響を与える可能性があります。セッションクラスターに異常が発生した場合、クラスター内のすべてのジョブが予期したとおりに実行されない可能性があります。

この問題を防ぐために、本番環境のジョブを実行するためにセッションクラスターに公開しないことをお勧めします。ジョブが属するセッションクラスターの例外が原因でジョブが失敗した場合、セッションクラスターを強制終了できます。

開発およびテスト環境 (セッションクラスター) の設定

JobManager 例外のインテリジェント分析

Realtime Compute for Apache Flink ジョブの実行中にエラーが発生した場合、JobManager は TaskManager の例外をログに記録します。Realtime Compute for Apache Flink の開発コンソールの [ログ] タブで例外ログを表示できます。例外ログは短期間保存できます。ジョブが連続して失敗する場合、根本原因は後続のスタック情報によって上書きされる可能性があります。このバージョンでは、例外ログの保存時間が延長され、例外ログが分類されます。これにより、例外の根本原因を簡単に特定できます。

デプロイの例外ログの表示

組み込みの Alibaba Cloud ドキュメント

ジョブの開発と O&M 中に、開発者は Realtime Compute for Apache Flink の開発コンソールから Alibaba Cloud ドキュメントセンターにリダイレクトしてドキュメントを表示する必要があります。頻繁なウィンドウの切り替えは、開発者の作業を中断させる可能性があります。開発エクスペリエンスを向上させるために、フルマネージド Flink はフルマネージド Flink のコンソールに組み込みの Alibaba Cloud ドキュメントを提供します。フルマネージド Flink のコンソールでドキュメントを直接表示できるため、頻繁なウィンドウの切り替えを防ぐことができます。

なし

サービス通知

サービス通知が Realtime Compute for Apache Flink のコンソールに追加されました。これにより、製品の更新を含むさまざまな通知を直接受信できます。これにより、テキストメッセージ、内部メッセージ、または DingTalk グループを使用してユーザーに通知を送信できないという問題が回避されます。

なし

UI の最適化

  • 新しい Alibaba Cloud テーマスタイルがサポートされています。

  • ジョブステータスの説明が最適化されています。

パフォーマンスの最適化

該当なし。

修正された問題

  • 次の問題が修正されました。シャードの数が変更されたが、Log Service コネクタが新しいシャードのリストを取得できない場合、データを読み取ることができません。

  • miniBatch などの集約最適化機能によってトリガーされるエラー [J cannot be cast to [Ljava.lang.Object; が修正されました。

  • 非同期データ処理中に ApsaraDB for HBase 結果テーブルのデータの順序が乱れる問題が修正されました。

  • 2 つのデータストリームの結合操作で Null ポインターが発生する問題が修正されました。

  • MySQL CDC コネクタを使用して Hudi にデータを書き込むときに、チェックポイントが常に失敗する問題が修正されました。

  • Message Queue for Apache Kafka ソーステーブルの pendingRecords メトリクスを報告するために使用される計算ロジックが最適化されました。

  • Realtime Compute for Apache Flink の開発コンソールに特定のメンバー名が表示されない問題が修正されました。

  • 特定の有効な DDL 構文の検証中にエラーが発生する問題が修正されました。