すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:Hive

最終更新日:Nov 09, 2025

Hive は Hadoop ベースのデータウェアハウスフレームワークであり、ビッグデータシナリオでの抽出・変換・書き出し (ETL) 操作とメタデータ管理をサポートします。

Hive コンポーネント

名前

説明

HiveServer2

Thrift または HTTP プロトコルを介して Java Database Connectivity (JDBC) クライアントから SQL リクエストを受信する HiveQL クエリサーバーです。 複数のクライアントからの同時アクセスと身分認証をサポートします。

Hive MetaStore

メタデータ管理コンポーネントです。 他のエンジンのために、データベースやテーブルなどのメタデータを格納します。 たとえば、Spark と Presto はどちらもこのコンポーネントをメタデータ管理に使用します。

Hive Client

Hive クライアントです。 SQL ジョブを送信し、構成された実行エンジンに基づいて MapReduce、Tez、または Spark ジョブに変換します。 このコンポーネントは、EMR クラスターのすべてのノードにインストールされます。

機能強化

EMR、Hadoop、および Hive のバージョン間の互換性の詳細については、「リリースバージョン」をご参照ください。 次の表では、さまざまな EMR バージョンの Hive で強化された機能について説明します。

EMR 5.x シリーズ

EMR バージョン

コンポーネントバージョン

機能強化

EMR-5.20.0

Hive 3.1.3

パーティションテーブルへのフィールド追加のパフォーマンスを最適化しました。

EMR-5.17.4

Hive 3.1.3

Master-Extend ノードグループのデプロイメントをサポートします。

EMR-5.12.1

Hive 3.1.3

デフォルトでは、OSS-HDFS を使用して Hive ウェアハウスファイルにデータを格納します。

EMR-5.9.0

Hive 3.1.3

Kerberos 認証がサポートされています。

EMR-5.8.0

Hive 3.1.2

ワンクリックで LDAP 認証を有効にできます。

EMR-5.6.0

Hive 3.1.2

次の問題が修正されました: Hive on Tez で投機的実行が有効になった後、元のタスクと投機的タスクの両方がコミットされます。

EMR-5.5.0

Hive 3.1.2

  • Hive Jindo で発生するバッチ削除に関する問題が修正されました。

  • HiveServer2 で発生するメモリ不足 (OOM) の問題が修正されました。

  • Hive on Spark が最適化されました。

  • Hive が JindoSDK に適合しました。

EMR-5.4.0

Hive 3.1.2

ブロックストレージモードの JindoFS では、複数の Hive テーブルのメタデータを同時に最適化できます。 デフォルトでは、この機能は無効になっています。

EMR-5.3.0

Hive 3.1.2

ブロックストレージモードの JindoFS では、複数の Hive テーブルのメタデータを同時に最適化できます。

EMR-5.2.1

Hive 3.1.2

  • Data Lake Formation (DLF) メタデータに基づく show create table コマンドの出力が不正確である問題が修正されました。

  • Hive のデフォルトパラメーターが最適化され、Hive ジョブのパフォーマンスが向上しました。

  • EMR コンソールでは、Hive サービスの [Configure] タブの [hive-env] タブのパラメーター名が大文字に変更されます。 これにより、パラメーターの使用が容易になります。

  • ユーザー定義関数 (UDF) が HiveServer2 のメモリリークを引き起こす問題が修正されました。

  • Hive テーブルにデータを書き込むときに、ファイルシステムと Hive メタストアの間の非互換性のために報告されるエラーメッセージが最適化されました。

EMR 3.x シリーズ

EMR バージョン

コンポーネントバージョン

機能強化

MR-3.51.4

Hive 2.3.9

Master-Extend ノードグループのデプロイメントをサポートします。

EMR-3.46.1

Hive 2.3.9

デフォルトでは、OSS-HDFS を使用して Hive ウェアハウスファイルにデータを格納します。

EMR-3.40.0

Hive 2.3.8

  • 次の問題が修正されました: Hive on Tez で投機的実行が有効になった後、元のタスクと投機的タスクの両方がコミットされます。

  • 次の問題が修正されました: ユーザー定義関数 (UDF) は、関数を再読み込みした後にのみ呼び出すことができます。

EMR-3.39.1

Hive 2.3.8

Hive が JindoSDK に適合しました。

EMR-3.36.1

Hive 2.3.8

  • Hive が 2.3.8 に更新されました。

  • Data Lake Formation (DLF) メタデータに基づく show create table コマンドの出力が不正確である問題が修正されました。

  • Hive のデフォルトパラメーターが最適化され、Hive ジョブのパフォーマンスが向上しました。

  • EMR コンソールでは、Hive サービスの [Configure] タブの [hive-env] タブのパラメーター名が大文字に変更されます。 これにより、パラメーターの使用が容易になります。

  • Hive テーブルにデータを書き込むときに、ファイルシステムと Hive メタストアの間の非互換性のために報告されるエラーメッセージが最適化されました。

EMR-3.35.0

Hive 2.3.7

フェッチタスクに関連するコミュニティから報告された問題が修正されました。

EMR-3.34.0

Hive 2.3.7

  • 一部のデフォルト構成が最適化されました。
  • パフォーマンスが最適化されました。 コストベースの最適化 (CBO) 機能が強化されました。
  • クリックで LDAP 認証を有効または無効にできます。
  • Calcite が 1.12.0 に更新されました。
  • hive.security.authorization.sqlstd.confwhitelist.append パラメーターが追加されました。

EMR-3.33.0

Hive 2.3.7

  • Hive が 2.3.7 に更新されました。
  • HCatalog テーブルの Alibaba Cloud Data Lake Formation (DLF) からのメタデータがサポートされています。
  • Hive メタデータとジョブ実行情報を DataWorks に送信できます。

EMR-3.32.0

Hive 2.3.5

  • HiveServer 接続プールの接続リークの問題が修正されました。
  • JindoTable のデータ収集機能を有効または無効にできます。
  • ADD COLUMN のパフォーマンスが最適化されました。
  • Hudi テーブルから読み取られたデータが無効になる問題が修正されました。
  • デフォルト構成は、クラスターノードのサイズに基づいて調整できます。

EMR-3.30.0

Hive 2.3.5

  • Alibaba Cloud DLF からのメタデータがサポートされています。
  • 空の Delta テーブルディレクトリを読み取り、ダミーファイルにデータを書き込むときに発生する問題が修正されました。
  • Has 依存関係が 2.0.1 に更新されました。

EMR-3.29.0

Hive 2.3.5

  • Hive が 2.3.5.6.0 に更新されました。

  • サードパーティのメタストアがサポートされています。

  • datalake metastore-client パラメーターが追加されました。

EMR-3.28.0

Hive 2.3.5

Delta Lake 0.6.0 をサポートします。

EMR-3.27.2

Hive 2.3.5

  • HCatalog テーブルの magic committer がサポートされています。
  • 一部の古いデフォルト構成は削除されました。

EMR-3.26.3

Hive 2.3.5

HCatalog テーブルは direct committer をサポートします。

EMR-3.25.0

Hive 2.3.5

自動 LOCAL モードで MapReduce ジョブが失敗する問題が修正されました。

EMR-3.24.0

Hive 2.3.5

  • SQL 文の互換性を確認できます。
  • Hive 2.3.5 と Hadoop 2.8.5 は組み合わせとしてリリースされます。
  • Hive が再起動されると、hiveserver2-site.xml のコンテンツは spark-conf フォルダの hive-site.xml に同期されません。
  • MSCK コマンドを使用して増分ディレクトリを追加できます。
  • Hive での Tez コンテナーの再利用によってトリガーされるバグが修正されました。
  • MSCK コマンドを使用して列ディレクトリを最適化できます。

EMR-3.23.0

Hive 2.3.5

  • 以前のバージョンの Hive で構成されていた Hive フックを削除しました。
  • データ最適化で hive.groupby.skew に複数の COUNT(DISTINCT) を使用することをサポートします。
  • 異なるバケットバージョンのテーブルを結合する際のデータ損失の問題を修正しました。

EMR-3.23.0 より前のバージョン

Hive 2.x

外部の統合データベースは Hive メタストアに保存されます。 外部 Hive メタストアを使用するすべてのクラスターは、同じメタデータを共有します。

EMR 4.x シリーズ

EMR バージョン

コンポーネントバージョン

機能強化

EMR-4.10.0

Hive 3.1.2

  • Hue を使用して履歴レコードをクエリすると文字化けが表示される問題が修正されました。

  • Hue を Oozie と一緒に使用すると発生する UI 表示の例外が修正されました。

  • YARN Job Browser がジョブを提示または終了できないことがある問題が修正されました。

  • YARN Job Browser はデフォルトでアクセス可能です。

  • Presto プロトコルはデフォルトでサポートされています。

EMR-4.8.0

Hive 3.1.2

  • 一部のデフォルト構成が最適化されました。

  • パフォーマンスが最適化されました。 コストベースの最適化 (CBO) 機能が強化されました。

  • クリックで LDAP 認証を有効または無効にできます。

EMR-4.6.0

Hive 3.1.2

  • HCatalog テーブルの Alibaba Cloud Data Lake Formation (DLF) からのメタデータがサポートされています。

  • Hive メタデータとジョブ実行情報を DataWorks に送信できます。

EMR-4.5.0

Hive 3.1.2

  • Alibaba Cloud DLF に保存されているメタデータがサポートされています。

  • Ranger の所有権関連の権限がサポートされています。

EMR-4.4.1

Hive 3.1.2

デフォルトのパラメーター構成を最適化しました。

EMR-4.4.0

Hive 3.1.2

  • Hive が 3.1.2 に更新されました。
  • JindoFS が最適化されました。
  • メタストア整合性チェック (MSCK) が最適化されました。
  • HCatalog テーブルの Jindo Job Committer がサポートされています。
  • Has 依存関係が更新されました。

EMR-4.3.0

Hive 3.1.1

カスタムデプロイメントをサポートします。

Hive 構文

一貫したユーザーエクスペリエンスを確保するために、EMR はオープンソースコンポーネントの構文を可能な限り保持します。 EMR Hive は Apache Hive の構文と完全に互換性があります。

Apache Hive の詳細については、Apache Hive 公式ウェブサイトにアクセスしてください。

リファレンス