DataWorks で Paimon Catalog データソースを構成できます。このデータソースは、Data Lake Formation (DLF) に由来しない Paimon テーブルのメタデータを取得および管理するために使用されます。これは特殊なメタデータデータソースとして、データマップ内で Paimon データレイク資産を統一的に管理するのに役立ちます。このトピックでは、このデータソースの構成方法について説明します。
機能
データレイクハウスアーキテクチャは、企業で広く利用されています。Paimon、Iceberg、Delta Lake などのオープンテーブルフォーマットは、リアルタイムデータウェアハウスの構築や、ストリームとバッチの統合処理シナリオの基盤となります。Paimon Catalog は、ネイティブな互換性から、特に Flink のストリーム処理エコシステムで広く採用されています。
DataWorks は Data Lake Formation と密接に統合されています。この統合により、DLF データソースを使用してデータレイクテーブルを統一的に管理および呼び出すことができます。しかし、実際の多くのシナリオでは、ユーザー定義のカタログが使用されます。たとえば、ユーザーが Flink エンジンを使用して Paimon Catalog を宣言・定義し、実際のメタデータとデータが Alibaba Cloud の Object Storage Service (OSS) に保存されている場合があります。
既存のデータソースシステムでは、このような DLF で管理されていないネイティブなレイクフォーマットのメタデータを効果的に検出し、管理することはできません。この問題に対処するため、DataWorks は Paimon Catalog データソースを導入しました。このデータソースは、ネイティブなデータレイクフォーマットのメタデータ取得とガバナンスをサポートします。この機能により、ユーザー定義のカタログの管理上のギャップを埋め、データレイクハウス全体のパスにわたるデータを可視化、管理、利用可能にします。
制限事項
ネットワーク接続:サーバーレスリソースグループのみがサポートされます。
シナリオ:Paimon Catalog データソースは、Collect Metadata とガバナンスにのみ使用されます。データ統合同期タスクはサポートしていません。データ同期タスクで Paimon テーブルの読み書きを行うには、DLF や OSS などの他のデータソースを使用する必要があります。
操作手順
1. データソースページへの移動
DataWorks コンソールにログインし、ターゲットリージョンを選択します。左側のナビゲーションウィンドウで ワークスペース をクリックします。対象のワークスペースを見つけ、[操作] 列の 管理 をクリックして、その管理ページに移動します。
[管理センター] ページで、左側のナビゲーションウィンドウの データソース をクリックして、[データソース] ページに移動します。
2. Paimon Catalog データソースの作成
データソース ページで、データソースの追加 をクリックします。
表示されるダイアログボックスで、Paimon Catalog を検索して選択します。
3. パラメーターの構成
インターフェイスでコアパラメーターを構成します:
フィールド | 説明 |
データソース名 | データソースのカスタム名。例: |
カタログ | 接続に使用するカタログの名前。例: |
[MetaStore] | カタログのストレージタイプ。現在、Filesystem のみがサポートされています。 |
ファイルシステム | ファイルストレージのタイプ。現在、OSS のみがサポートされています。 |
アクセスID |
|
[リージョン] | 可能な限り、現在のワークスペースと同じリージョンにあるバケットを選択してください。クロスリージョンのデータソースを作成するには、VPC ピアリング接続を確立します。詳細については、「同一 Alibaba Cloud アカウント下の別リージョンにあるデータソースへの接続」をご参照ください。または、パブリックエンドポイントを使用して接続することもできます。 |
エンドポイント | ドメイン名の設定方法については、「エンドポイントとネットワーク接続の概要」をご参照ください。 |
[Warehouse] | Warehouse パス:OSS 内の Paimon Catalog のストレージの場所。
|
4. 接続テスト
データソースを構成した後、接続テストを実行して、データソースとリソースグループ間のネットワーク接続が正常に機能していることを確認します。
接続可能 と表示された場合、構成は正常です。
接続できません と表示された場合、問題のトラブルシューティングに役立つ診断ツールが表示されます。一般的な原因には、不正な認証情報、ネットワークの問題 (IP アドレスホワイトリストの未設定など)、または NAT ゲートウェイの欠落が含まれます。
標準モードでは、開発環境と本番環境の両方が 接続可能 のステータスであることを確認してください。そうでない場合、メタデータ取得などの後続の操作は失敗します。
次のステップ
データソースを構成した後、データマップモジュールに移動してメタデータを取得できます。その後、収集したメタデータを表示および管理できます。
をクリックすると、パスを視覚的に選択できます。