このトピックでは、2024年12月20日にリリースされたRealtime Compute for Apache Flinkバージョンの主な更新について説明します。
バージョンアップグレードは、カナリアリリースプランを使用してネットワーク全体に段階的に展開されます。 このバージョンの新機能は、アカウントのアップグレードが完了した後にのみ使用できます。 できるだけ早くアップグレードを適用するには、[チケットを送信] してください。
概要
このリリースでは、マテリアライズドテーブル機能が導入されました。 マテリアライズドテーブルは、バッチデータパイプラインとストリーミングデータパイプラインの両方を合理化し、一貫した開発エクスペリエンスを提供するように設計されています。
今日の複雑な市場では、ビジネスチームは意思決定のためにデータに依存しています。 したがって、データチームはビジネスチームの取り組みをサポートするために正確なデータを提供することが不可欠です。 ビジネスシナリオが異なれば、データに対する要件も異なります。
リスク制御シナリオでは、通常、数秒から数ミリ秒のレイテンシで高いデータ鮮度が要求されます。
ユーザープロファイリングとリアルタイムレコメンデーションでは、通常、数分でのデータ更新が必要です。
BI レポートおよび前年比や前月比などの履歴データ分析は、通常日レベルの低いデータ鮮度を許容できます。
従来のデータウェアハウスは、通常、Kappa と Lambda の 2 つのアーキテクチャに依存しています。どちらもビジネスニーズをある程度満たしていますが、顕著な制限があります。したがって、さまざまなビジネスシナリオにおける多様なデータ鮮度要件を満たすことができる統合アーキテクチャを持つことが不可欠です。
従来のデータウェアハウスは、通常、KappaとLambdaの2つのアーキテクチャに依存しています。 どちらもビジネスニーズをある程度満たしていますが、顕著な制限があります。 したがって、さまざまなビジネスシナリオにおけるさまざまなデータ鮮度要件を満たすことができる統合アーキテクチャを持つことが不可欠です。
Realtime Compute for Apache Flinkは、ストリーム処理とバッチ処理の統合プラットフォームとして機能し、企業の多様なデータ適時性ニーズを満たす包括的な技術ソリューションを提供します。 この目的のために、マテリアライズドテーブルが導入されました。 この機能は、ストリームバッチ統合ストレージをサポートする Apache Paimon に基づいています。 ストリーミングジョブログとバッチジョブログを個別に定義する従来の方法とは異なり、マテリアライズドテーブルを使用すると、Flink SQL を使用してデータ鮮度を定義できます。 これにより、Flink は定義された間隔でデータを更新しようとします。 このアプローチは、ETL プロセスを合理化し、ストリームモードとバッチモード間でジョブをシームレスに移行し、カスケード更新機能を提供し、データ更新効率を大幅に向上させます。 マテリアライズドテーブルは、Lambda アーキテクチャで一貫したデータ処理ロジックを確保できない場合、オフラインレポートにリアルタイム統計が必要な場合、リアルタイムダッシュボードアプリケーションが正確性のために履歴データに依存している場合に最適です。
Flink のマテリアライズドテーブルは、ストリーミング処理とバッチ処理のシームレスな統合を促進します。 この機能により、データレイク上のストリームデータと履歴データを処理し、データ開発の新しいパラダイムを作成できます。 データ、メタデータ、データ処理レイヤーを統合することにより、マテリアライズドテーブルは、データの重複、データ処理ロジックの不整合、さまざまなタスクに異なるエンジンを使用するなどの問題を効果的に解決します。