このトピックでは、リアルタイムビッグデータコンピューティングのために、Realtime Compute for Apache Flinkをさまざまな企業部門およびテクノロジーに適用する方法について説明します。
背景情報
ストリームコンピューティングエンジンとして、Flinkは、Elastic Compute Service(ECS)インスタンスのオンラインサービスログやモノのインターネット(IoT)シナリオのセンサーデータなど、リアルタイムデータコンピューティングに幅広く使用できます。 Flinkを使用して、ApsaraDB RDSやPolarDBなどのリレーショナルデータベースからのバイナリログの更新をサブスクライブしたり、DataHub、Simple Log Service、Kafkaなどのサービスを使用してリアルタイムデータをリアルタイムサービスに収集してデータ分析と処理を行うことができます。 その後、データをMaxCompute、Hologres、Machine Learning Platform for AI、Elasticsearchなどのダウンストリームデータサービスに書き込んで、データ活用を向上させ、ビジネス要件を満たすことができます。
部門
部門の観点から、Realtime Compute for Apache Flinkは次の機能を提供できます。
事業部門:リアルタイム不正検出、リアルタイムレコメンデーション、検索エンジンのリアルタイムインデックス作成。
データ部門:リアルタイムデータウェアハウス、リアルタイムレポート、リアルタイムダッシュボード。
運用保守(O&M)部門:リアルタイム監視、リアルタイム例外検出とアラート、エンドツーエンドのデバッグ。
テクノロジー
技術的な観点から、Realtime Compute for Apache Flinkは次のシナリオに適しています。
リアルタイム ETL とデータストリーム
データは、リアルタイムの抽出、変換、ロード(ETL)プロセスとデータストリームを使用して、ポイント A からポイント B に配信されます。 配信中に、データのクレンジングと統合が必要になる場合があります。 例としては、検索システムでのリアルタイムインデックス作成や、リアルタイムデータウェアハウスの ETL 操作などがあります。
リアルタイムデータ分析
データ分析とは、ビジネス目標を達成するために、生データから情報を抽出して統合するプロセスです。 たとえば、1 日に販売された上位 10 製品、倉庫の平均ターンアラウンドタイム、ドキュメントの平均クリック率、プッシュ通知の到達率などを表示できます。 リアルタイムデータ分析を使用すると、リアルタイムレポートまたはダッシュボードを表示できます。
イベント駆動型アプリケーション
イベント駆動型アプリケーションとは、サブスクリプションイベントを処理または反応するシステムです。 イベント駆動型アプリケーションは、内部状態に依存し、不正検出時またはリスク管理システムや O&M 例外検出システムで検出された疑わしいイベントに応答します。 ユーザーの行動がリスク管理ルールをトリガーした場合、システムはイベントをキャプチャし、現在および以前のユーザーの行動を分析して、リスク管理対策を実施するかどうかを判断します。
リスク管理システム
Realtime Compute for Apache Flinkは、複雑なストリームコンピューティングタスクとバッチ処理タスクを処理できます。 その強力な API を使用すると、複雑な数学的計算を実行し、複雑なイベント処理ルールを実行できます。 これにより、企業はリアルタイムでデータを分析し、リスク管理機能を向上させることができます。 たとえば、Realtime Compute for Apache Flink は、アプリ内のユーザーの行動を特定し、IoT データストリームの異常を特定できます。
上記のテクノロジーフローチャートは、Apache Flink から取得したものです。