すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:Hiveメタデータを一元管理する

最終更新日:Jan 11, 2025

V2.4.0より前のバージョンのE-MapReduce(EMR)では、オンプレミスのMySQLデータベースを使用して、クラスターのHiveメタデータを保存していました。 EMR V2.4.0以降のバージョンでは、高信頼性Hiveメタデータベースが一元的なメタデータ管理に使用されます。

背景情報

メタデータベースには、パブリックIPアドレスを使用してのみアクセスできます。 クラスターにパブリックIPアドレスが設定されていることを確認してください。 パブリックIPアドレスを変更しないでください。 変更すると、データベースホワイトリストが無効になります。

コンソールでは、オンプレミス メタデータベースのメタデータを管理できません。 ただし、クラスターのHueツールを使用してメタデータを管理することはできます。

必要なストレージ容量が少ない場合は、EMRのバックグラウンドでApsaraDB RDSを使用してメタデータを一元管理できます。 大容量のストレージが必要な場合は、ApsaraDB RDSインスタンスを作成してメタデータを一元管理することをお勧めします。 作成したApsaraDB RDSインスタンスのデフォルトの制限:
  • 合計容量:200 MiB
  • 1時間あたりの最大クエリ数:720,000
  • 1時間あたりの最大更新数:144,000

注意事項

Hive統合メタデータストレージタイプは、今後廃止される予定です。 メタデータを保存するには、新しいEMRコンソールで提供されているDLF統合メタデータストレージタイプを使用する必要があります。 詳細については、「EMRメタデータの移行」をご参照ください。 EMRの新しいユーザーの場合は、DLF統合メタデータストレージタイプを使用してメタデータを保存してください。

概要

Hive metadatabases
一元化されたメタデータ管理には、次の利点があります:
  • 永続的なメタデータストレージ

    以前のバージョンでは、メタデータはクラスターにデプロイされたMySQLデータベースに保存され、クラスターが解放されると削除されます。 EMRでは、不要になった従量課金制クラスターを解放できるため、この問題はさらに顕著になります。 メタデータを保持するには、クラスターにログオンしてメタデータを手動でエクスポートする必要があります。

    一元化されたメタデータ管理が有効になると、解放されたクラスターのメタデータが保持されます。 オブジェクトストレージサービス(OSS)またはクラスターのHadoop分散ファイルシステム(HDFS)のデータを削除する前、またはクラスターを解放する前に、メタデータが削除されていることを確認してください。 つまり、データを保存するテーブルとデータベースも削除されます。 これにより、データベースにダーティ メタデータが蓄積されるのを防ぎます。

  • コンピューティングとストレージの分離

    EMRはデータをAlibaba Cloud OSSに保存できるため、大量のデータを保存するためのコストが大幅に削減されます。 EMRクラスターは主にコンピューティングリソースとして使用され、不要になった場合は解放できます。 データはOSSに保存されるため、クラスターの解放前にメタデータを移行する必要はありません。

  • データ共有

    すべてのデータがOSSに保存されている場合、すべてのクラスターはメタデータを移行または再構築することなくデータにアクセスできます。 このように、異なるサービスを処理するEMRクラスターは、データを直接共有できます。

統合メタデータを使用するクラスターを作成する

次のいずれかの方法を使用して、統合メタデータを使用するクラスターを作成できます:
  • EMRコンソールの使用

    クラスターを作成するときは、[基本設定] ステップで、タイプ パラメーターを [統合メタベース] に設定します。 クラスターの作成方法については、「クラスターの作成」をご参照ください。

  • CreateClusterV2 APIオペレーションの呼び出し
    CreateClusterV2 オペレーションの説明をご覧ください。
    説明 useLocalMetaDb パラメーターをfalseに設定します。

テーブルの管理

詳細については、「Hiveメタデータの基本操作」をご参照ください。

メタデータ情報の表示

  1. メタデータ管理ページに移動します。
    1. Alibaba Cloud EMRコンソールにログインします。
    2. 上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します
    3. [メタデータ] タブをクリックします。
  2. 左側のナビゲーションペインで、[メタベース情報] をクリックします。

    メタベース情報ページで、現在のApsaraDB RDSインスタンスの使用状況と制限を表示できます。