Paimon カタログを設定すると、Realtime Compute for Apache Flink を使用して Alibaba Cloud Data Lake Formation (DLF) の Paimon テーブルに直接アクセスできます。このトピックでは、Paimon カタログの作成、表示、削除方法、および Realtime Compute 開発コンソールで Paimon データベースとテーブルを管理する方法について説明します。
注
Ververica Runtime (VVR) 8.0.5 以降のみが Paimon カタログとテーブルの作成および設定をサポートします。VVR 11.1.0 以降のみがメタストアタイプを DLF に設定することをサポートします。
Object Storage Service (OSS) は、データファイルやメタデータファイルなど、Paimon テーブルに関連するファイルを格納します。OSS がアクティブ化されており、OSS バケットのストレージタイプが標準であることを確認してください。詳細については、「コンソールの使用開始」および「ストレージタイプ」をご参照ください。
重要Realtime Compute for Apache Flink をアクティブ化したときに指定した OSS バケットを使用することもできます。ただし、データをより適切に区別し、偶発的なデータ操作を防ぐために、同じリージョンに別の OSS バケットを作成して使用することをお勧めします。
Paimon カタログの作成に使用される AccessKey は、OSS バケットと DLF ディレクトリに対する読み取りおよび書き込み権限を持っている必要があります。
SQL を使用してカタログ、データベース、またはテーブルを作成または削除した後、更新
ボタンをクリックして [メタデータ] ページを更新します。次の表に、Paimon と VVR バージョン間のマッピングを示します。
Apache Paimon バージョン
VVR バージョン
1.1
11
1.0
8.0.11
0.9
8.0.7、8.0.8、8.0.9、および 8.0.10
0.8
8.0.6
0.7
8.0.5
0.6
8.0.4
0.6
8.0.3
Paimon カタログの作成
Paimon Filesystem カタログの作成
UI ベースのメソッド
Data Management ページに移動します。
Real-time Compute コンソールにログインし、対象のワークスペースの [アクション] 列にある [コンソール] をクリックします。
[Data Management] をクリックします。
[カタログの作成] をクリックし、[Apache Paimon] を選択して、[次へ] をクリックします。
パラメーターを設定します。
SQL ベースのメソッド
[データクエリ] エディターで、次のコマンドを入力します。
CREATE CATALOG `my-catalog` WITH (
'type' = 'paimon',
'metastore' = 'filesystem',
'warehouse' = '<warehouse>',
'fs.oss.endpoint' = '<fs.oss.endpoint>',
'fs.oss.accessKeyId' = '<fs.oss.accessKeyId>',
'fs.oss.accessKeySecret' = '<fs.oss.accessKeySecret>'
);次の表にパラメーターを示します。
全般
パラメーター
説明
必須
注
my-catalog
Paimon カタログの名前。
はい
カスタムの英語名を入力します。
type
カタログのタイプ。
はい
値は paimon に固定されています。
metastore
メタストアのタイプ。
はい
有効な値:
filesystem: Paimon Filesystem カタログを設定する場合にこの値を指定します。
dlf: Paimon DLF カタログを設定する場合にこの値を指定します。
OSS
パラメーター
説明
必須
注
warehouse
OSS のウェアハウスディレクトリ。
はい
フォーマットは oss://<bucket>/<object> です。
bucket: 作成した OSS バケットの名前。
object: データが格納されているパス。
OSS コンソールでバケットとオブジェクト名を表示します。
fs.oss.endpoint
OSS サービスのエンドポイント。
はい
Flink と DLF が同じリージョンにある場合は、VPC エンドポイントを使用します。それ以外の場合は、インターネットエンドポイントを使用します。
このパラメーターは、warehouse に指定された OSS バケットと Flink ワークスペースが異なるリージョンにある場合、または別の Alibaba Cloud アカウントの OSS バケットを使用する場合に必須です。
詳細については、「リージョンとエンドポイント」および「AccessKey の作成」をご参照ください。
fs.oss.accessKeyId
OSS に対する読み取りおよび書き込み権限を持つ Alibaba Cloud アカウントまたは RAM ユーザーの AccessKey ID。
はい
fs.oss.accessKeySecret
OSS に対する読み取りおよび書き込み権限を持つ Alibaba Cloud アカウントまたは RAM ユーザーの AccessKey Secret。
はい
Paimon DLF カタログの作成
DLF
DLF 上に Apache Paimon カタログを作成します。詳細については、「DLF の使用」をご参照ください。
DLF カタログは Flink ワークスペースと同じリージョンにある必要があります。そうでない場合、関連付けは失敗します。
Realtime Compute 開発コンソールで Paimon カタログを作成します。
説明この操作は DLF カタログへのマッピングを作成します。Flink でカタログを作成または削除しても、DLF の実際のデータには影響しません。
ワークスペース名をクリックして開発コンソールを開きます。
次のいずれかの方法を使用してカタログを登録します。
UI
左側のナビゲーションメニューで、[カタログ] をクリックします。
[カタログリスト] ページで、[カタログの作成] をクリックします。
[カタログの作成] ウィザードで、[Apache Paimon] を選択し、[次へ] をクリックします。
[metastore] を [DLF] に設定します。[カタログ名] には、接続する DLF カタログを選択します。
[確認] をクリックします。
SQL コマンド
[スクリプト] SQL エディターで、次の SQL コードをコピーして実行し、Flink に DLF カタログを登録します。
CREATE CATALOG `flink_catalog_name` WITH ( 'type' = 'paimon', 'metastore' = 'rest', 'token.provider' = 'dlf', 'uri' = 'http://cn-hangzhou-vpc.dlf.aliyuncs.com', 'warehouse' = 'dlf_test' );次の表にコネクタオプションを示します。
オプション
説明
必須
例
typeカタログタイプ。このオプションを
paimonに設定します。はい
paimonmetastoreカタログメタストア。このオプションを
restに設定します。はい
resttoken.providerトークンプロバイダー。このオプションを
dlfに設定します。はい
dlfuriDLF カタログサービスの Rest URI。フォーマット:
http://[region-id]-vpc.dlf.aliyuncs.com。「エンドポイント」のリージョン ID をご参照ください。はい
http://ap-southeast-1-vpc.dlf.aliyuncs.com
warehouseDLF paimon カタログの名前。
はい
dlf_test
DLF-Legacy
DLF 上に Apache Paimon カタログを作成します。詳細については、「クイックスタート」をご参照ください。
DLF カタログは Flink ワークスペースと同じリージョンにある必要があります。そうでない場合、関連付けは失敗します。
Realtime Compute 開発コンソールで Paimon カタログを作成します。
UI ベースのメソッド
Data Management ページに移動します。
Real-time Compute コンソールにログインし、対象のワークスペースの [アクション] 列にある [コンソール] をクリックします。
[Data Management] をクリックします。
[カタログの作成] をクリックします。[Apache Paimon] を選択し、[次へ] をクリックします。
[metastore] には、[DLF] を選択します。[カタログ名] には、関連付ける V1.0 DLF カタログを選択し、SQL メソッドと同じ必須パラメーターを設定します。
SQL コマンド
[データクエリ] エディターで、次のコマンドを入力します。
CREATE CATALOG `my-catalog` WITH ( 'type' = 'paimon', 'metastore' = 'dlf', 'warehouse' = '<warehouse>', 'dlf.catalog.id' = '<dlf.catalog.id>', 'dlf.catalog.accessKeyId' = '<dlf.catalog.accessKeyId>', 'dlf.catalog.accessKeySecret' = '<dlf.catalog.accessKeySecret>', 'dlf.catalog.endpoint' = '<dlf.catalog.endpoint>', 'dlf.catalog.region' = '<dlf.catalog.region>', 'fs.oss.endpoint' = '<fs.oss.endpoint>', 'fs.oss.accessKeyId' = '<fs.oss.accessKeyId>', 'fs.oss.accessKeySecret' = '<fs.oss.accessKeySecret>' );次の表にパラメーターを示します。
全般
パラメーター
説明
必須
注
my-catalog
Paimon カタログの名前。
はい
カスタムの英語名を入力します。
type
カタログのタイプ。
はい
値は paimon に固定されています。
metastore
メタストアのタイプ。
はい
値は dlf に固定されています。
OSS
パラメーター
説明
必須
注
warehouse
OSS のウェアハウスディレクトリ。
はい
フォーマットは oss://<bucket>/<object> です。
bucket: 作成した OSS バケットの名前。
object: データが格納されているパス。
OSS コンソールでバケットとオブジェクト名を表示します。
fs.oss.endpoint
OSS サービスのエンドポイント。
はい
Flink と DLF が同じリージョンにある場合は、VPC エンドポイントを使用します。それ以外の場合は、インターネットエンドポイントを使用します。
Paimon テーブルを OSS-HDFS に保存する場合は、fs.oss.endpoint の値を
cn-<region>.oss-dls.aliyuncs.com(例:cn-hangzhou.oss-dls.aliyuncs.com) に設定します。
fs.oss.accessKeyId
OSS に対する読み取りおよび書き込み権限を持つ Alibaba Cloud アカウントまたは RAM ユーザーの AccessKey ID。
はい
詳細については、「リージョンとエンドポイント」および「AccessKey の作成」をご参照ください。
fs.oss.accessKeySecret
OSS に対する読み取りおよび書き込み権限を持つ Alibaba Cloud アカウントまたは RAM ユーザーの AccessKey Secret。
はい
DLF
パラメーター
説明
必須
注
dlf.catalog.id
DLF データカタログの ID。
はい
Data Lake Formation コンソールでデータカタログの ID を表示できます。
dlf.catalog.accessKeyId
DLF サービスへのアクセスに必要な AccessKey ID。
はい
詳細については、「AccessKey の作成」をご参照ください。
dlf.catalog.accessKeySecret
DLF サービスへのアクセスに必要な AccessKey Secret。
はい
詳細については、「AccessKey の作成」をご参照ください。
dlf.catalog.endpoint
DLF サービスのエンドポイント。
はい
詳細については、「利用可能なリージョンとエンドポイント」をご参照ください。
説明Flink と DLF が同じリージョンにある場合は、VPC エンドポイントを使用します。それ以外の場合は、インターネットエンドポイントを使用します。
dlf.catalog.region
DLF が存在するリージョン。
はい
詳細については、「サポートされているリージョンとエンドポイント」をご参照ください。
説明リージョンが dlf.catalog.endpoint に選択されたものと同じであることを確認してください。
Paimon データベースの管理
[データクエリ] エディターで次のコマンドを入力し、コードを選択して [実行] をクリックします。
データベースの作成
Paimon カタログを作成すると、
defaultという名前のデータベースがカタログに自動的に作成されます。--my-catalog を作成した Paimon カタログの名前に置き換えます。 USE CATALOG `my-catalog`; --my_db をデータベースのカスタム英語名に置き換えます。 CREATE DATABASE `my_db`;データベースの削除
重要DLF カタログからデフォルトのデータベースを削除することはできません。Filesystem カタログからデフォルトのデータベースを削除できます。
--my-catalog を作成した Paimon カタログの名前に置き換えます。 USE CATALOG `my-catalog`; --my_db を削除したいデータベースの名前に置き換えます。 DROP DATABASE `my_db`; --テーブルを含まないデータベースのみを削除します。 DROP DATABASE `my_db` CASCADE; --データベースとそれに含まれるすべてのテーブルを削除します。
Paimon テーブルの管理
テーブルの作成
テーブルスキーマの変更
テーブルの削除
Paimon カタログの表示または削除
Real-time Compute コンソールで、対象のワークスペースの [アクション] 列にある [コンソール] をクリックします。
[Data Management] ページで、Apache Paimon カタログを表示またはドロップできます。
[カタログリスト] ページでは、[カタログ名] と [タイプ] を表示できます。カタログ内のデータベースとテーブルを表示するには、[表示] をクリックします。
[カタログリスト] ページで、削除するカタログを見つけ、[アクション] 列の [削除] をクリックします。
説明Paimon カタログを削除すると、Flink ワークスペースの Data Management ページからそのレコードのみが削除されます。この操作は Paimon テーブルのデータファイルには影響しません。Paimon カタログを再作成することで、カタログ内の Paimon テーブルを再利用できます。
また、[データクエリ] エディターで
DROP CATALOG <catalog name>;を入力し、コードを選択して [実行] をクリックすることもできます。
リファレンス
Paimon テーブルを作成した後、テーブルからデータを消費したり、テーブルにデータを書き込んだりできます。詳細については、「Paimon テーブルへのデータの書き込みと消費」をご参照ください。
組み込みカタログがビジネス要件を満たさない場合は、カスタムカタログを使用できます。詳細については、「カスタムカタログの管理」をご参照ください。
さまざまなシナリオにおける Paimon プライマリキーテーブルと追加専用テーブルの一般的な最適化については、「Paimon パフォーマンスの最適化」をご参照ください。
