このトピックでは、ジョブ開発のガイドを提供します。
アップストリームおよびダウンストリームシステムを理解する
アップストリーム (ソース): データの読み取り元となるソースシステム。
例としては、Kafka、MySQL CDC、Hologres、Simple Log Service (SLS) などがあります。
ダウンストリーム (シンク): 処理結果の書き込み先となるシステム。
例としては、データベース (MySQL、PostgreSQL)、データウェアハウス (ClickHouse、Doris、StarRocks)、メッセージキュー、データレイク (Paimon、OSS) などがあります。
Realtime Compute for Apache Flink は、データベース、メッセージキュー、データレイクなど、さまざまなシナリオに対応する 30 以上のアップストリームおよびダウンストリームコネクタをサポートしています。これにより、データリンクの迅速ですぐに利用できる統合が可能になります。詳細については、「サポートされているコネクタ」をご参照ください。
ビジネスシナリオを定義する
ジョブタイプ | シナリオ |
Flink SQL | リアルタイムの抽出、変換、ロード (ETL)、リアルタイムのメトリック計算、マルチストリーム結合、リアルタイムのデータウェアハウス構築、およびレイクハウス向けのストリームとバッチの統合処理。 |
Flink CDC データインジェスト | リアルタイムのデータベース同期、データ移行、および複数テーブルの自動同期。 |
Datastream API | 複雑なイベント処理 (CEP)、高頻度の外部呼び出し、複雑なウィンドウロジック、およびカスタムソースまたはシンク。 |
ジョブを開発する
Flink SQL ETL、集約、ディメンションテーブルの結合を迅速に実装します。 | Flink CDC データインジェスト リアルタイムのデータベース同期と複数テーブルからの一括インジェスト。 | Datastream API CEP、カスタムステート、および複雑なロジックに使用されます。 |
典型的なシナリオ | クエリとテスト | 高度な使用法 |
エコシステム統合 | O&M と最適化 | 一般的な問題のトラブルシューティング |