基本情報 - - Alibaba Cloud ドキュメントセンター

このトピックでは、Realtime Compute for Apache Flink に関する基本情報を説明します。

Realtime Compute for Apache Flink とは

データのビジネス価値は、データが生成された時点で最も高くなります。そのため、データが生成されるとすぐに処理できることは、企業にとって貴重な特性です。Realtime Compute for Apache Flink は、このようなシナリオにおける適時性と速度に関する厳格な要件を満たすために開発されました。データの適時性と操作性に対する要求が高まるにつれて、ソフトウェアシステムはより短い時間でより多くのデータを処理できる必要があります。従来のビッグデータ処理アプリケーションでは、オンライントランザクション処理（OLTP）とオフラインデータ分析は、スケジュールに基づいて異なる時間帯に実行されます。処理が必要な大量のデータと組み合わせることで、この方法では計算サイクルが数時間または数日かかることがよくあります。ストリーミングデータをリアルタイムで処理する必要がある今日のビジネスには、この方法はもはや適していないことは明らかです。データ処理の遅延は、リアルタイムのビッグデータ分析、リスク管理とアラート、リアルタイム予測、金融取引など、時間的制約のあるワークロードの精度とパフォーマンスに影響を与える可能性があります。

Realtime Compute for Apache Flink は、リアルタイムコンピューティング技術を活用してデータ処理に必要な時間を短縮し、コストを大幅に削減します。これは、今日のリアルタイムコンピューティングニーズに最適なソリューションです。これは、次の機能によって実現されます。

リアルタイムの無制限のデータストリーム
今日のデータは継続的に生成され、実用的な洞察を得るには時系列で消費する必要があります。たとえば、訪問者が Web サイトにアクセスすると、ログが生成されます。これらのログは継続的に Realtime Compute for Apache Flink にストリーミングされ、訪問者が Web サイトを閉じるときにのみ停止します。Realtime Compute for Apache Flink は、ログデータをリアルタイムで取り込み、処理して洞察を提供します。
継続的かつ効率的なコンピューティング
Realtime Compute for Apache Flink はイベント駆動型システムであり、無制限のイベントまたはデータストリームが継続的にリアルタイム計算をトリガーします。新しいデータが取り込まれるたびに、新しいタスクがトリガーされます。継続的なデータストリームと組み合わせることで、継続的なコンピューティングパイプラインが形成されます。
ストリーミングデータのリアルタイム統合
処理されたデータは、選択したデータストアにリアルタイムで書き込まれます。たとえば、Realtime Compute for Apache Flink は結果を ApsaraDB RDS インスタンスに直接書き込み、レポートの生成と視覚化に使用できます。この機能により、Realtime Compute for Apache Flink は、ダウンストリームプロセスとデータストアのデータソースとしても利用できます。

ストリーミングデータとは

ビッグデータの生成は、一連の個別のイベントと見なすことができます。これらの個別のイベントは、タイムラインに沿ってイベントストリームまたはデータストリームを形成します。ストリーミングデータの規模は、オフラインデータよりも小さくなります。ストリーミングデータは、継続的なイベントストリームから生成されます。ストリーミングデータの例としては、次の種類のデータがあります。

モバイルアプリケーションと Web アプリケーションによって生成されたログファイル
オンラインショッピングデータ
ゲーム内プレイヤーのアクティビティ
ソーシャルネットワーキングサイトからのデータ
トレーディングフロアまたは地理空間データセンターの接続デバイスからのテレメトリデータ
地理空間サービス情報
デバイスと機器からのテレメトリデータ

リアルタイムコンピューティングとバッチ処理の違い

このセクションでは、ユーザーと製品の観点から、リアルタイムコンピューティングとバッチ処理の違いについて説明します。

バッチ処理
バッチ処理のデプロイは、ユーザーまたはシステムによってオンデマンドまたはスケジュールされた間隔で開始されます。これにより、データ収集と結果が生成されるまでの間に大きな遅延が発生します。従来のデータコンピューティングおよび分析サービスのほとんどは、バッチ処理モデルに基づいて開発されています。抽出、変換、ロード（ETL）システムまたは OLTP システムを使用してデータをデータストアにロードし、その後、ダウンストリームサービスによってデータがクエリされます。次の図は、従来のバッチ処理モデルを示しています。
従来のバッチ処理手順は、次のステップで構成されます。
1. データのロード
  バッチ処理を実行するには、コンピューティングシステムが事前にデータをロードする必要があります。コンピューティングシステムとして ETL システムまたは OLTP システムを使用できます。システムは、ストレージ方法と計算方法に基づいて、ロードされたデータに対して一連のクエリ最適化、分析、および計算を実行します。
2. リクエストの送信
  システムは、MaxCompute SQL デプロイや Hive SQL デプロイなどのコンピューティングデプロイを開始し、コンピューティングシステムにリクエストを送信します。次に、コンピューティングシステムは、これらのリクエストを処理するためにコンピューティングノードをスケジュールします。プロセス全体には数分か数時間かかる場合があります。これにより、ユーザーが洞察を得るまでに長い遅延が発生し、時間的制約のあるアプリケーションには適していません。
  説明バッチ処理の場合、ビジネス要件に基づいて SQL ステートメントをいつでも調整できます。また、アドホッククエリを実行して、データを即座に変更およびクエリすることもできます。
3. 結果データの返却
  コンピューティングデプロイが完了すると、結果は結果セットとして返されます。これは通常、非常に大きくなります。次に、このデータをストレージまたはダウンストリームサービスに書き込む必要があります。このプロセスは、完了するまでに数分か数時間かかる場合があります。
リアルタイムコンピューティング
リアルタイムコンピューティングデプロイは、イベントによって継続的にトリガーされます。通常、結果は最小限の遅延で取得されます。リアルタイムコンピューティングモデルはシンプルです。したがって、リアルタイムコンピューティングは、ほとんどのビッグデータ処理シナリオにおいて、バッチ処理の付加価値サービスと見なされます。リアルタイムコンピューティングは、遅延の少ないデータストリームに対する計算を提供します。次の図は、リアルタイムコンピューティングモデルを示しています。
1. リアルタイムデータストリームの送信
  データ統合ツールを使用して、ストリーミングデータを Message Queue や DataHub などのストリーミングデータストアにリアルタイムで送信します。ストリーミングデータは、データ統合の遅延を最小限に抑えるために、リアルタイムでマイクロバッチで送信されます。
  ストリーミングデータは、データをプリロードする必要なく、データストアに継続的に書き込まれます。Realtime Compute for Apache Flink は、処理されたデータを保存しません。ストリーミングデータは、データが処理された後すぐに破棄されます。
2. ストリーミングドラフトの公開
  バッチ処理では、データ統合が完了した後にのみコンピューティングデプロイを開始できます。リアルタイムコンピューティングデプロイは、常駐コンピューティングサービスです。Realtime Compute for Apache Flink デプロイを開始すると、Realtime Compute for Apache Flink はすぐにストリーミングデータを計算し、少量のデータがストリーミングデータストアに入った後に結果を生成します。また、大きなバッチのデータを小さなバッチに分割し、それらを段階的に処理します。これにより、処理遅延が効果的に短縮されます。ストリーミングデプロイの場合、デプロイの計算ロジックを事前に定義し、Realtime Compute for Apache Flink にデプロイのドラフトを公開する必要があります。
  説明リアルタイムコンピューティング中にストリーミングデプロイが実行されている場合、デプロイのロジックを変更できますが、変更はリアルタイムでは有効になりません。変更を有効にするには、デプロイを再起動する必要があります。計算済みのデータは再計算できません。
3. 結果データストリームのリアルタイム生成
  バッチ処理では、累積されたすべてのデータが処理された後にのみ、結果データをオンラインシステムに同時に書き込むことができます。ストリーミングデプロイは、各マイクロバッチのデータレコードが処理された直後に、結果データをオンラインシステムまたはバッチシステムに配信します。
リアルタイムコンピューティングは、次の順序で実行されます。
1. ユーザーがリアルタイムコンピューティングドラフトを公開します。
2. ストリーミングデータがリアルタイムコンピューティングデプロイをトリガーします。
3. リアルタイムコンピューティングデプロイの結果データは、継続的に宛先システムに書き込まれます。

次の表に、バッチ処理とリアルタイムコンピューティングの違いを示します。

項目	バッチ処理	リアルタイムコンピューティング
データ統合	データ処理システムは事前にデータをロードする必要があります。	Realtime Compute for Apache Flink はデータをリアルタイムでロードします。
計算ロジック	計算ロジックを変更でき、データを再処理できます。	計算ロジックが変更された場合、ストリーミングデータはリアルタイムで処理されるため、データを再処理できません。
データスコープ	データセット内のすべてまたはほとんどのデータをクエリおよび処理できます。	最新のデータレコードまたはローリングウィンドウ内のデータをクエリおよび処理できます。
データ量	大量のデータが処理されます。	個々のレコードまたは少数のレコードで構成されるマイクロバッチのデータが処理されます。
パフォーマンス	データ処理には数分か数時間かかります。	データ処理には数ミリ秒または数秒かかります。
分析	分析は複雑です。	分析は、単純な応答関数、集計、およびローリングメトリックに基づいています。

Realtime Compute for Apache Flink とは

ストリーミング データとは

リアルタイム コンピューティングとバッチ処理の違い

ストリーミングデータとは

リアルタイムコンピューティングとバッチ処理の違い