Hive は Hadoop ベースのデータウェアハウスフレームワークであり、ビッグデータシナリオでの抽出・変換・書き出し (ETL) 操作とメタデータ管理をサポートします。
Hive コンポーネント
名前 | 説明 |
HiveServer2 | Thrift または HTTP プロトコルを介して Java Database Connectivity (JDBC) クライアントから SQL リクエストを受信する HiveQL クエリサーバーです。 複数のクライアントからの同時アクセスと身分認証をサポートします。 |
Hive MetaStore | メタデータ管理コンポーネントです。 他のエンジンのために、データベースやテーブルなどのメタデータを格納します。 たとえば、Spark と Presto はどちらもこのコンポーネントをメタデータ管理に使用します。 |
Hive Client | Hive クライアントです。 SQL ジョブを送信し、構成された実行エンジンに基づいて MapReduce、Tez、または Spark ジョブに変換します。 このコンポーネントは、EMR クラスターのすべてのノードにインストールされます。 |
機能強化
EMR、Hadoop、および Hive のバージョン間の互換性の詳細については、「リリースバージョン」をご参照ください。 次の表では、さまざまな EMR バージョンの Hive で強化された機能について説明します。
EMR 5.x シリーズ
EMR バージョン | コンポーネントバージョン | 機能強化 |
EMR-5.20.0 | Hive 3.1.3 | パーティションテーブルへのフィールド追加のパフォーマンスを最適化しました。 |
EMR-5.17.4 | Hive 3.1.3 | Master-Extend ノードグループのデプロイメントをサポートします。 |
EMR-5.12.1 | Hive 3.1.3 | デフォルトでは、OSS-HDFS を使用して Hive ウェアハウスファイルにデータを格納します。 |
EMR-5.9.0 | Hive 3.1.3 | Kerberos 認証がサポートされています。 |
EMR-5.8.0 | Hive 3.1.2 | ワンクリックで LDAP 認証を有効にできます。 |
EMR-5.6.0 | Hive 3.1.2 | 次の問題が修正されました: Hive on Tez で投機的実行が有効になった後、元のタスクと投機的タスクの両方がコミットされます。 |
EMR-5.5.0 | Hive 3.1.2 |
|
EMR-5.4.0 | Hive 3.1.2 | ブロックストレージモードの JindoFS では、複数の Hive テーブルのメタデータを同時に最適化できます。 デフォルトでは、この機能は無効になっています。 |
EMR-5.3.0 | Hive 3.1.2 | ブロックストレージモードの JindoFS では、複数の Hive テーブルのメタデータを同時に最適化できます。 |
EMR-5.2.1 | Hive 3.1.2 |
|
EMR 3.x シリーズ
EMR バージョン | コンポーネントバージョン | 機能強化 |
MR-3.51.4 | Hive 2.3.9 | Master-Extend ノードグループのデプロイメントをサポートします。 |
EMR-3.46.1 | Hive 2.3.9 | デフォルトでは、OSS-HDFS を使用して Hive ウェアハウスファイルにデータを格納します。 |
EMR-3.40.0 | Hive 2.3.8 |
|
EMR-3.39.1 | Hive 2.3.8 | Hive が JindoSDK に適合しました。 |
EMR-3.36.1 | Hive 2.3.8 |
|
EMR-3.35.0 | Hive 2.3.7 | フェッチタスクに関連するコミュニティから報告された問題が修正されました。 |
EMR-3.34.0 | Hive 2.3.7 |
|
EMR-3.33.0 | Hive 2.3.7 |
|
EMR-3.32.0 | Hive 2.3.5 |
|
EMR-3.30.0 | Hive 2.3.5 |
|
EMR-3.29.0 | Hive 2.3.5 |
|
EMR-3.28.0 | Hive 2.3.5 | Delta Lake 0.6.0 をサポートします。 |
EMR-3.27.2 | Hive 2.3.5 |
|
EMR-3.26.3 | Hive 2.3.5 | HCatalog テーブルは direct committer をサポートします。 |
EMR-3.25.0 | Hive 2.3.5 | 自動 LOCAL モードで MapReduce ジョブが失敗する問題が修正されました。 |
EMR-3.24.0 | Hive 2.3.5 |
|
EMR-3.23.0 | Hive 2.3.5 |
|
EMR-3.23.0 より前のバージョン | Hive 2.x | 外部の統合データベースは Hive メタストアに保存されます。 外部 Hive メタストアを使用するすべてのクラスターは、同じメタデータを共有します。 |
EMR 4.x シリーズ
EMR バージョン | コンポーネントバージョン | 機能強化 |
EMR-4.10.0 | Hive 3.1.2 |
|
EMR-4.8.0 | Hive 3.1.2 |
|
EMR-4.6.0 | Hive 3.1.2 |
|
EMR-4.5.0 | Hive 3.1.2 |
|
EMR-4.4.1 | Hive 3.1.2 | デフォルトのパラメーター構成を最適化しました。 |
EMR-4.4.0 | Hive 3.1.2 |
|
EMR-4.3.0 | Hive 3.1.1 | カスタムデプロイメントをサポートします。 |
Hive 構文
一貫したユーザーエクスペリエンスを確保するために、EMR はオープンソースコンポーネントの構文を可能な限り保持します。 EMR Hive は Apache Hive の構文と完全に互換性があります。
Apache Hive の詳細については、Apache Hive 公式ウェブサイトにアクセスしてください。
リファレンス
Hive クライアントを使用して Hive に接続する方法の詳細については、「Hive の接続方法」をご参照ください。
Hive サービスの身分認証の詳細については、「Kerberos 認証の使用」および「LDAP 認証の使用」をご参照ください。
Hive を使用してデータレイクデータにアクセスする方法については、「Hive を使用して Delta Lake および Hudi データにアクセスする」をご参照ください。
Hive ジョブの一般的な最適化メソッドの詳細については、「Hive ジョブの最適化」をご参照ください。
Hive ジョブの一般的な問題のトラブルシューティング方法については、「Hive ジョブの例外のトラブルシューティング」をご参照ください。