Apache Paimon(Paimon)は、さまざまなデータ型に対応した統合ストレージ形式を提供します。Paimon は Apache Flink および Apache Spark と連携して、ストリーミング操作とバッチ操作の両方をサポートするリアルタイムレイクハウスアーキテクチャを実装できます。Paimon は、レイク形式とログ構造化マージツリー(LSM)構造を革新的に組み合わせることで、レイクアーキテクチャにおけるリアルタイムストリーミング更新をサポートします。Realtime Compute for Apache Flink で Paimon テーブルを使用すると、オブジェクトストレージサービス(OSS)などのクラウドストレージサービスに基づいてデータレイクを迅速に構築できます。
Paimon は以下の機能を提供します。
強化されたリアルタイムデータの取り込み:Paimon は Realtime Compute for Apache Flink と連携して、スキーマ変更の自動同期と MySQL などのさまざまなデータベースシステムからのリアルタイム更新をサポートするデータレイクにさまざまな種類のデータを取り込むことができます。数千万件のデータレコードを低レイテンシで効率的に取り込むことができます。
統合されたストリーム処理とバッチ処理:Paimon は、Apache Flink と連携してストリーム処理を容易にし、Apache Spark と連携してバッチ処理を容易にします。Paimon は、データレイクストレージの統合形式を提供することで、使いやすさを向上させ、コストを削減します。
広範なエコシステム統合:Paimon は、Realtime Compute for Apache Flink、E-MapReduce(Spark、StarRocks、Hive、Trino)、MaxCompute など、さまざまな Alibaba Cloud コンピューティングサービスとシームレスに統合できます。
革新的なレイクハウスストレージ:Paimon は、削除ベクトルとインデックスを使用して、ストリーミング、バッチ、およびオンライン分析処理(OLAP)クエリのレイテンシを分単位で確保します。
詳細については、「Apache Paimon」をご参照ください。
使用方法
Paimon を理解する
Paimon を初めて使用する場合は、基本機能から始めることをお勧めします。詳細については、「Apache Paimon の基本機能の概要」をご参照ください。
Paimon テーブルの機能について学習します。データにストリーミング更新が必要な場合は、プライマリキーテーブルを使用します。それ以外の場合は、追加専用テーブル(プライマリキーなし)を使用します。
Paimon がデータの鮮度と整合性をどのように確保するかについては、「データのレイテンシと整合性」をご参照ください。
ストリーミングレイクハウスを構築するためのステップバイステップガイドについては、「Realtime Compute for Apache Flink、Apache Paimon、および StarRocks を使用してストリーミングデータレイクハウスを構築する」をご参照ください。
Paimon カタログを作成する
Paimon カタログは、外部システムに格納されている Paimon テーブルへのアクセスを提供します。Paimon テーブルを一元的に管理でき、他の Alibaba Cloud サービスからアクセスできます。Paimon カタログは、以下の方法で使用できます。
Paimon カタログを作成して使用します。詳細については、「Apache Paimon カタログの管理」をご参照ください。
Paimon テーブルのメタデータをData Lake Formation(DLF)に同期します。詳細については、「Paimon DLF カタログの作成」をご参照ください。
MaxCompute に Paimon 外部テーブルを作成して、関連付けられている Paimon テーブルにアクセスします。詳細については、「Paimon MaxCompute カタログの作成」をご参照ください。
Paimon テーブルのメタデータを DLF に同期し、MaxCompute に Paimon 外部テーブルを作成します。詳細については、「Paimon 同期カタログの作成」をご参照ください。
Paimon テーブルを作成する
Paimon カタログに Paimon テーブルを直接作成します。詳細については、「Paimon テーブルの管理」をご参照ください。
MySQL や Apache Kafka などの外部ソースからデータを同期し、CREATE TABLE AS (CTAS) 文または CREATE DATABASE AS (CDAS) 文を使用して Paimon テーブルを作成します。詳細については、「CTAS または CDAS を使用したテーブルの作成」をご参照ください。
Paimon テーブルにデータを書き込む
Paimon テーブルに新しいデータを挿入するか、データを更新します。詳細については、「Paimon テーブルにデータを書き込む」をご参照ください。
Paimon テーブルを他のテーブルと結合し、集計関数を適用します。詳細については、「マージエンジン」をご参照ください。
Paimon テーブルを部分的または完全に上書きします。詳細については、「INSERT OVERWRITE ステートメントを使用してデータを上書きする」をご参照ください。
Paimon テーブルからデータを削除します。詳細については、「DELETE ステートメントを使用してデータを削除する」をご参照ください。
Paimon テーブルからパーティションを削除します。詳細については、「Apache Paimon テーブルのスキーマを変更する」をご参照ください。
Paimon テーブルからデータを使用する
Paimon テーブルからデータをクエリまたは使用します。詳細については、「Paimon テーブルからデータを使用する」をご参照ください。プライマリキーテーブルからストリーミングモードでデータを使用する場合は、changelog producer 構成を完了してください。
Paimon テーブルのコンシューマオフセットを設定します。詳細については、「コンシューマオフセットを設定する」をご参照ください。
Paimon テーブルのコンシューマオフセットを保存するか、まだ使用中の期限切れのスナップショットファイルを保持します。詳細については、「コンシューマ ID を指定する」をご参照ください。
バッチデプロイメントを実行して、Paimon テーブルの履歴状態を読み取ります。詳細については、「バッチタイムトラベル」をご参照ください。
Paimon テーブルを保守する
Paimon に関する一般的な問題への対処方法について学習します。詳細については、「アップストリームストレージとダウンストリームストレージ」をご参照ください。
Paimon テーブルの読み取りおよび書き込みパフォーマンスを最適化します。詳細については、「パフォーマンスの最適化」をご参照ください。
パーティションや各パーティションのファイルの合計サイズなど、Paimon テーブルのメタデータをクエリします。詳細については、「システムテーブル」をご参照ください。
Paimon カタログ内のテーブルのスキーマを変更します。詳細については、「Apache Paimon テーブルのスキーマを変更する」をご参照ください。
Paimon カタログからテーブルを削除します。詳細については、「Apache Paimon テーブルの削除」をご参照ください。
固定バケットモードを使用する Paimon テーブルのバケット数を変更します。詳細については、「固定バケットモードのバケット数を変更する」をご参照ください。
Paimon テーブルのディレクトリにある古いファイルをクリーンアップします。詳細については、「期限切れデータのクリーンアップ」をご参照ください。