すべてのプロダクト
Search
ドキュメントセンター

Realtime Compute for Apache Flink:2022 年 3 月 4 日

最終更新日:Jul 03, 2025

このトピックでは、Realtime Compute for Apache Flink のリリースノートについて説明し、関連リファレンスへのリンクを提供します。リリースノートでは、2022 年 3 月 4 日にリリースされたバージョンの Realtime Compute for Apache Flink の主要な更新とバグ修正を提供します。

概要

Ververica Runtime (VVR) 4.0.12 は、2022 年 3 月 4 日に正式にリリースされました。このバージョンは Apache Flink 1.13 をベースに開発されています。このバージョンでは、Realtime Compute for Apache Flink は Message Queue for Apache Kafka から Hologres への JSON スキーマ変更を同期できます。 Realtime Compute for Apache Flink は、Data Lake Formation (DLF) で動作するエンタープライズレベルの Hudi コネクタを提供します。開発効率を向上させるために、Realtime Compute for Apache Flink は 20 を超える一般的な Flink SQL ジョブテンプレートを提供します。 O&M 機能を強化するために、Realtime Compute for Apache Flink は、ジョブを停止することなく、強力なジョブ診断と動的なログレベル調整をサポートしています。 Realtime Compute for Apache Flink は、ClickHouse のエンタープライズレベルの機能、新しいコネクタ、データウェアハウスおよびデータレイクへのデータ取り込みのための新しい構文など、さまざまなデータ処理機能もサポートしています。 Apache Flink コミュニティで修正されたいくつかの問題は、このバージョンでも修正されています。

新機能

機能

説明

リファレンス

Hologres への JSON スキーマ変更の同期

JSON は、ストリーム処理で最も一般的なイベント形式の 1 つです。スキーマの変更は、バックエンドストレージエンジンのリアルタイムストリーミングジョブとテーブルに対して透過的であることが期待されます。

このバージョンでは、この要件を満たすために、次の機能強化が提供されています。

  • JSON データを使用する前に、JSON スキーマに基づいてテーブルスキーマを設定できます。

  • 後続のデータ使用中に JSON スキーマが変更された場合、バックエンドの Hologres テーブルのスキーマも変更されます。

Iceberg および Hudi のデータレイク構築機能の強化

  • Alibaba Cloud DLF カタログを設定できます。

    DLF カタログを設定して、Hudi、Iceberg、または DLF でサポートされている他のエンジンにアクセスできます。これにより、リアルタイムのデータレイクを効率的に構築できます。

  • Iceberg テーブルの小さなファイルを大きなファイルに書き直すことができます。

    AUTO OPTIMIZE ステートメントを実行して、ストリーミング最適化タスクを開始し、Iceberg テーブルの小さなファイルを大きなファイルに自動的に書き直すことができます。

  • 組み込みのエンタープライズレベル Hudi コネクタは、Realtime Compute for Apache Flink によってサポートされており、O&M の複雑さを軽減します。

    • Flink Change Data Capture (CDC) を使用して、データベースからデータレイクにデータを取り込み、テーブルスキーマの変更を自動的に同期できます。

    • Realtime Compute for Apache Flink は、Object Storage Service (OSS) や DLF などの Alibaba Cloud サービスと統合して、コンピューティングエンジン間のデータ接続性を向上させることができます。

ログの表示と設定の使いやすさの向上

  • ログはページごとに表示できます。

    ジョブが長時間実行されている場合、多数のログが原因で、ジョブの [ログ] タブが表示されない場合があります。この問題を防ぐために、Realtime Compute for Apache Flink では、[ログ] タブでジョブのログをページごとに表示できます。

  • ログレベルを変更できます。

    ジョブを再起動することなく、ジョブの [ログ] タブで実行されている TaskManager のログレベルを変更できます。これは、問題の原因を特定するのに役立ちます。

  • 失敗した TaskManager のログを表示できます。

    [ログ] タブで、JobManager の実行中に実行に失敗した TaskManager のログを表示できます。これにより、TaskManager の障害の原因を特定できます。

Realtime Compute for Apache Flink でサポートされている複数のエンタープライズレベルの ClickHouse 機能

  • exactly-once セマンティクスがサポートされています。

    E-MapReduce (EMR) によって提供される ClickHouse サービスは、ApsaraDB for ClickHouse ではなく、exactly-once セマンティクスをサポートしています。

  • ClickHouse の NESTED データ型がサポートされています。

    ClickHouse の NESTED データ型は、Flink の ARRAY データ型にマッピングされます。

  • ClickHouse 分散テーブルに対応するローカルテーブルにデータを書き込むことができます。

    ClickHouse 分散テーブルに対応するローカルテーブルに直接データを書き込むことができます。これにより、分散テーブルへのデータ書き込みのスループットが大幅に向上します。

ClickHouseコネクタ

最適化されたジョブ診断ルールと [診断] パネル

  • ジョブの状態を包括的に分析するために、20 を超える診断ルールが追加されています。

    リスクレベルは、ジョブの状態に基づいて、高、中、または低として識別できます。

  • [診断] パネルは、ジョブの状態をより良く表示できるように最適化されています。

インテリジェントデプロイメント診断の実行

データ同期中の計算列の追加

CREATE TABLE AS ステートメントを使用してデータを同期する場合、計算列をソーステーブルに追加し、デスティネーションテーブルのプライマリキー列として使用できます。

データウェアハウスまたはデータレイクにデータを取り込む場合、CREATE TABLE AS ステートメントを実行して、追加する計算列の位置を指定し、その列をデスティネーションテーブルの物理列として使用できます。これにより、計算列の結果をデスティネーションテーブルにリアルタイムで同期できます。また、CREATE TABLE AS ステートメントを実行して、デスティネーションテーブルのプライマリキーを変更し、新しい列をデスティネーションテーブルの新しいプライマリキー列として使用することもできます。

CREATE TABLE AS ステートメント

テストデータの生成

Faker コネクタがサポートされています。

Faker コネクタを使用すると、ビジネス要件を満たすテストデータをより簡単に生成できます。これにより、開発およびテスト中にビジネスロジックを検証できます。

ジョブ開発を加速するためのテンプレートセンターの提供

  • 20 を超えるコードテンプレートが提供されています。

    Flink SQL の一般的なシナリオで使用される 20 を超えるテンプレートが提供されており、Flink SQL を使用してジョブコードを構築する方法をすばやく理解できます。

  • MySQL から Hologres にデータを同期するためのテンプレートが提供されています。

    これらのテンプレートを使用して、Flink CDC ジョブをすばやく作成し、データウェアハウスまたはデータレイクにデータを取り込むことができます。

リソース使用率の表示

現在のプロジェクトの CPU 使用率とメモリ使用量は、Realtime Compute for Apache Flink の開発コンソールの左下に表示されます。情報に基づいてプロジェクトリソースを管理できます。

該当なし

チェックポイントが低速で作成されるジョブのログの迅速な特定

スナップショット履歴内のノードのスナップショット状態をソートできます。さらに、[Flink チェックポイント履歴] タブから [実行中のタスクマネージャー] タブの [ログ] タブに移動して、ジョブのチェックポイントが作成される速度が遅い原因を表示できます。

低速で生成されたチェックポイントを見つけて、チェックポイントの TaskManager のログを表示する

AnalyticDB for PostgreSQL 結果テーブルと AnalyticDB for PostgreSQL ディメンションテーブルの作成

  • Realtime Compute for Apache Flink によって AnalyticDB for PostgreSQL 結果テーブルにデータを書き込むことができます。

  • Realtime Compute for Apache Flink を AnalyticDB for PostgreSQL に関連付けて、関連クエリを実行できます。

エンタープライズレベルのステートバックエンドストレージの使いやすさの向上

  • リアルタイムパラメータ調整がサポートされています。これにより、手動パラメータ調整の複雑さとコストが大幅に削減され、95% 以上の手動パラメータ調整が回避されます。

  • シングルコアスループットが 10% から 40% 向上しました。これにより、トラフィックのピークと谷間を簡単に処理できます。

パフォーマンスの向上

このバージョンでは、エンタープライズレベルのステートバックエンドストレージが大幅に改善されています。デュアルストリームまたはマルチストリーム JOIN ジョブのパフォーマンスが大幅に向上しました。平均計算リソース使用率を 50% 向上させることができます。典型的なシナリオでは、平均計算リソース使用率を 100% から 200% 向上させることができます。これにより、ステートフルストリーム処理アプリケーションをよりスムーズに実行できます。

修正された問題

  • データベースまたはテーブルに大量のデータが含まれている場合、データの更新後にデータが表示されない問題を修正するために、カタログサービスが最適化されています。

  • セッションクラスターの Flink バージョンが表示されない問題が修正されました。

  • [メトリクス] タブに watermarkLag 曲線が期待どおりに表示されない問題が修正されました。

  • [メトリクス] タブで曲線チャートをページごとに表示する効果が最適化されています。

  • currentFetchEventTimeLag メトリックの問題やクラスの競合などの Flink CDC の問題が修正されました。

  • CREATE TABLE AS ステートメントを使用して既存の列を変更できない問題が修正されました。