データカタログは、Hive メタデータを管理するための統一されたインターフェイスを提供します。このトピックでは、データカタログでテーブルオブジェクトを作成および管理する方法について説明します。
Hive データカタログページに移動する
DataWorks コンソールの [ワークスペース] ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[アクション] 列で を選択します。
左側のナビゲーションウィンドウで、
アイコンをクリックします。[データカタログ] ツリーで [Hive] をクリックして、Hive データカタログ管理ページを開きます。
Hive データカタログの作成
Hive データカタログ管理ページでは、既存の Hive データソースをデータセットとしてデータカタログに追加できます。
Hive データカタログの右側にある
アイコンをクリックして、[インスタンスの追加] ページを開きます。[DataWorks データソース] タブで、Hive データソースをデータカタログに追加します。
現在のワークスペースで 新しい Data Studio にアタッチされた EMR 計算リソースを管理するには、[DataWorks データソース] タブで対応する EMR クラスターデータソースを見つけ、[アクション] 列の [追加] をクリックします。
または、[DataWorks データソース] タブで、複数の Hive データソースを選択し、リストの下にある [一括追加] をクリックすることもできます。
Hive データカタログの管理
Hive データカタログで Hive テーブルを追加および管理できます。
テーブルの作成
Hive データカタログの横にある
アイコンをクリックして、データベースの下にある [テーブル] を見つけます。[テーブル] の右側にある
アイコンをクリックして、[テーブルの作成] ページを開きます。次のいずれかの方法で、基本的なテーブルとフィールドの情報を生成できます。
Copilot を使用してテーブルを作成する:
ページ上部のツールバーで、[Copilot でテーブルを作成] をクリックして Copilot チャットインターフェイスを開きます。
自然言語でテーブルを作成する命令を入力します。例:
ユーザーテーブルを作成。[生成して置換] をクリックします。システムは、命令に基づいてデフォルトのテーブル名とフィールド情報を生成します。
テーブル名とフィールドが期待どおりの場合は、[承認] をクリックします。
説明[承認] をクリックした後、システムが生成した情報を手動で編集してテーブル情報を変更できます。
手動でテーブルを作成する:
パラメーターの説明に基づいてテーブルを作成できます。
パラメーター
説明
基本情報
カスタムの [テーブル名]、[テーブルの説明]、およびその他の情報を指定します。
フィールド情報
フィールドとフィールドの注釈を編集します。
手動で編集: フィールド情報リストの上にある [挿入] をクリックします。挿入する行数を指定し、[フィールド名]、[フィールドタイプ]、およびその他の情報を編集します。
Copilot で編集: フィールド情報リストの上にある [フィールドの生成] または [フィールドの説明の生成] をクリックします。システムは、設定したテーブル名と説明に基づいて、関連するフィールドと説明を生成します。
(オプション) パーティション情報を構成します。
パーティションテーブルを作成するには、[パーティションフィールド] セクションで、[行] のパーティションフィールドの数を指定し、[挿入] をクリックします。複数のパーティションがサポートされています。パーティションフィールドリストで、必要に応じて [フィールド名]、[フィールドタイプ]、およびその他のパラメーターを構成します。
(オプション) 詳細設定を構成します。
パラメーター
説明
テーブルタイプ
[内部テーブル] のみがサポートされています。
ストレージの場所
テーブルのカスタムストレージフォルダを指定できます。例:
/user/hive/warehouse/hive_work。ストレージフォーマット
ストレージフォーマットは、CSV、PARQUET、ORC、AVRO、JSON、または SELF_DEFINE に設定できます。システムは、選択されたストレージフォーマットに基づいて、データ入力フォーマット、出力フォーマット、およびシリアル化/デシリアル化メソッドを自動的に定義します。
CSV: カンマ区切りのテキストファイルで、単純なデータ構造に適しています。
PARQUET: 高い圧縮率を持つカラムナストレージフォーマットで、ビッグデータ分析に適しています。
ORC: 優れたパフォーマンスを持つ最適化されたカラムナストレージフォーマットで、複雑なデータの型をサポートします。
AVRO: スキーマ進化をサポートするバイナリ形式で、動的なデータ構造に適しています。
JSON: ネストされた構造をサポートし、半構造化データに適しています。
SELF_DEFINE: カスタムのシリアル化およびデシリアル化ロジックを定義できます。
構成が完了したら、上部のツールバーにある [公開] をクリックしてテーブルを作成します。
テーブルの管理
Hive データカタログでテーブルを作成した後、Hive データカタログの左側にある
アイコンをクリックし、次に [テーブル] をクリックして [テーブル] ページを開きます。
テーブルの表示
[テーブル] ページでは、すべてのテーブルの基本情報を表示できます。また、特定のテーブル名をクリックして、その [詳細]、[基本情報]、および [DDL] 情報を表示することもできます。
テーブルの削除
[テーブル] ページで、削除したいテーブルを見つけ、[アクション] 列の [削除] をクリックします。
重要この操作は元に戻せません。注意して進めてください。
Hive データカタログの表示と削除
Hive データカタログが不要になった場合は、表示して削除できます。
データカタログの表示
Hive データソースを Hive データカタログに追加した後、Hive データカタログの左側にある
アイコンをクリックして、追加された Hive データソースを表示できます。Hive データソースをクリックして、その Hive インスタンス内のすべての [データベース] を表示します。
プロジェクトをデタッチできます。
Hive データカタログを管理する必要がなくなった場合は、カタログを右クリックし、表示されるメニューから [データカタログのデタッチ] を選択します。