Hadoop コンピュートソースは、Dataphin プロジェクトを Hadoop クラスターにバインドします。これにより、Dataphin でオフラインコンピューティングタスクを実行するために必要な計算リソースが提供されます。Dataphin のコンピュートエンジンを Hadoop に設定した場合、標準モデリング、アドホッククエリ、Hive タスク、汎用スクリプトなどの機能を利用するには、Hadoop コンピュートソースが設定されたプロジェクトのみが対象となります。本トピックでは、Hadoop コンピュートソースの作成手順について説明します。
前提条件
開始する前に、以下の要件を満たしていることを確認してください。
Dataphin のコンピュートエンジンを Hadoop に設定します。詳細については、「コンピュートエンジンを Hadoop に設定」をご参照ください。
Hive ユーザーが以下の権限を持っていることを確認します。
CREATEFUNCTION 権限。
重要この権限は、Dataphin 経由で Hive にユーザー定義関数 (UDF) を登録するために必要です。この権限がないと、Dataphin で UDF を作成したり、Dataphin のアセットセキュリティ機能を利用したりできません。
UDF が格納される HDFS ディレクトリに対する読み取り、書き込み、実行権限。
HDFS 上のデフォルト UDF ディレクトリは
/tmp/dataphinです。このディレクトリは変更可能です。
高速クエリおよびデータ分析のために Impala タスクを実行する場合は、まず Hadoop クラスター上に Impala (バージョン 2.5 以降) を導入する必要があります。
E-MapReduce 5.x をコンピュートエンジンとして使用し、OSS を基盤とする Hive 外部テーブルをオフライン統合に利用する場合は、事前に環境を構成する必要があります。詳細については、「OSS を基盤とする Hive 外部テーブルをオフライン統合に利用」をご参照ください。
Impala タスクの制限事項
高速クエリおよびデータ分析のために Impala タスクを有効化した場合、Dataphin では以下の制限が適用されます。
Impala バージョン 2.5 以降のみがサポートされます。
論理テーブルは Impala 実行エンジンをサポートしていません。ただし、Impala を使用して論理テーブルをクエリすることは可能です。
Dataphin は Impala JDBC クライアントを使用して Impala JDBC ポート (デフォルト: 21050) に接続します。Hive JDBC ポートはサポートされていません。Dataphin で Impala タスクまたはデータソースを作成する前に、クラスター提供元に連絡し、Impala JDBC 接続がサポートされているかを確認してください。
Hive は Kudu テーブルにアクセスできないため、以下の制限が適用されます。
Hive SQL は Kudu テーブルにアクセスできません。アクセスを試みると、次のエラーで SQL 実行が失敗します。
FAILED: RuntimeException java.lang.ClassNotFoundException: org.apache.Hadoop.hive.kudu.KuduInputFormat。Kudu テーブルをモデリングのソーステーブルとして使用できません。Kudu ソーステーブルを使用するタスクは失敗します。
セキュリティスキャンタスクでは、Impala SQL を使用して Kudu テーブルをスキャンします。スキャンタスクが実行されるプロジェクトで Impala が有効になっていない場合、Kudu テーブルのスキャンはサポートされません。
品質ルールチェックでは、Kudu テーブルに対して Impala SQL を使用します。Impala が有効になっていない場合、品質チェックは失敗します。
タグプラットフォームでは、Kudu テーブルをオフラインビュー用テーブルとしてサポートしていません。
Dataphin は Kudu テーブルのストレージサイズを取得する機能をサポートしていません。
Kudu テーブルのストレージサイズ情報はアセット詳細に表示されません。
リソース管理における空テーブルガバナンス機能は、Kudu テーブルをサポートしていません。
Kudu テーブルは、テーブルサイズおよびテーブルパーティションサイズに関する品質ルールをサポートしていません。
Spark SQL サービスの制限事項
Spark SQL サービスを有効化した場合、Dataphin では以下の制限が適用されます。
Spark バージョン 3.x のみがサポートされます。
Hadoop クラスター上で、Spark Thrift Server、Kyuubi、または Livy のいずれかのサービスを導入および起動する必要があります。
Dataphin は Spark Call コマンドのデータ権限を検証しません。使用には注意が必要です。
Spark SQL タスクの Spark リソース設定を構成するには、本番および開発用コンピュートソースの Spark SQL サービス構成が同一である必要があります。構成が異なる場合、Spark リソース設定を構成できません。
コンピュートエンジンとサポートされるサービスタイプ
サポートされるサービスタイプは、コンピュートエンジンによって異なります。
コンピュートエンジンタイプ | Spark Thrift Server | Kyuubi | Livy | MapReduce (MRS) |
E-MapReduce 3.x | サポート対象 | サポート対象 | 非サポート | 非サポート |
E-MapReduce 5.x | サポート対象 | サポート対象 | 非サポート | 非サポート |
CDH 5.x、CDH 6.x | 非サポート | サポート対象 | 非サポート | 非サポート |
Cloudera Data Platform | 非サポート | サポート対象 | サポート対象 | 非サポート |
FusionInsight 8.x | 非サポート | 非サポート | 非サポート | サポート対象 |
AsiaInfo DP 5.3 | サポート対象 | サポート対象 | 非サポート | 非サポート |
Amazon EMR | サポート対象 | 非サポート | 非サポート | サポート対象 |
操作手順
Dataphin ホームページの上部メニューバーで、計画 > コンピュートソース を選択します。
コンピュートソース ページで、+ コンピュートソースの追加 をクリックし、Hadoop コンピュートソース を選択します。
コンピュートソースの作成 ページで、パラメーターを設定します。
コンピュートソースの設定方法は、指定クラスターを参照 する方法と、スタンドアロン構成 を使用する方法の 2 つがあります。利用可能なパラメーターは、選択した方法によって異なります。
指定クラスターを参照
基本コンピュートソース情報
パラメーター
説明
コンピュートソースタイプ
デフォルト: Hadoop。
コンピュートソース名
命名規則:
英字、数字、アンダースコア (_ )、ハイフン (- )、漢字のみ使用可能。
最大長: 64 文字。
構成方法
指定クラスターを参照 を選択します。
データレイクテーブルフォーマット
デフォルトで無効です。有効化すると、データレイクテーブルフォーマットを選択できます。
Cloudera Data Platform 7.x の場合、サポートされるフォーマット: Hudi。
E-MapReduce 5.x の場合、サポートされるフォーマット: Iceberg および Paimon。
説明このオプションは、Cloudera Data Platform 7.x または E-MapReduce 5.x のみでサポートされます。
コンピュートソースの説明
簡潔な説明。最大長: 128 文字。
キュー情報
パラメーター
説明
本番タスクキュー
本番環境での手動および定期タスクに使用する YARN リソースキューを入力します。
その他のタスクキュー
アドホッククエリ、データプレビュー、JDBC Driver アクセスなど、その他のタスクに使用する YARN リソースキューを入力します。
優先度付きタスクキュー
本番タスクのデフォルトキューを使用 または カスタム を選択します。
「カスタム」を選択した場合、最高、高、中、低、最低の各優先度タスクに対して個別の YARN リソースキューを入力します。
Hive コンピュートエンジン構成
パラメーター
説明
接続情報
クラスター構成を参照 または スタンドアロン構成 を選択します。
JDBC URL
接続アドレス形式は以下の 3 種類をサポートしています。
HiveServer 接続アドレス:
jdbc:hive://{connection address}:{port}/{database name}。ZooKeeper 接続アドレス。例:
jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2。Kerberos 対応接続アドレス:
jdbc:hive2://{connection address}:{port}/{database name};principal=hive/_HOST@xx.com。
説明スタンドアロン構成 を選択した場合、JDBC URL を編集できます。クラスター構成を参照 を選択した場合、JDBC URL を表示するのみです。
E-MapReduce 3.x、E-MapReduce 5.x、または Cloudera Data Platform の場合、Kerberos 対応 JDBC URL には複数の IP アドレスを含めることはできません。
データベース
説明データベースは、クラスター構成を参照 を選択した場合にのみ設定できます。
データベース名を入力します。ピリオド (.) は使用しないでください。最大長: 256 文字。
認証タイプ
説明認証は、スタンドアロン構成 を選択した場合にのみ設定できます。
サポートされる方法: 認証なし、LDAP、および Kerberos。
認証なし: Hive サービスのユーザー名を入力します。
LDAP: Hive サービスのユーザー名とパスワードを入力します。
説明「認証なし」または「LDAP」で指定するユーザーは、タスク実行権限を持っている必要があります。
Kerberos: Hadoop クラスターで Kerberos を使用している場合、Hive Kerberos を有効化し、Keytab ファイルおよびプリンシパルをアップロードします。
Keytab ファイル: Keytab ファイルをアップロードします。Hive Server から取得してください。
プリンシパル: Hive Keytab ファイルの Kerberos ユーザー名を入力します。
実行エンジン
デフォルト: このコンピュートソースにバインドされたプロジェクト内のタスク (論理テーブルタスクを含む) は、この実行エンジンをデフォルトで使用します。
カスタム: 別のコンピュートエンジンタイプを選択します。
Spark JAR サービス構成
説明クラスター構成を参照 を選択し、参照先クラスターで Spark ローカルクライアントが有効になっていない場合、Spark JAR サービスを構成できません。
パラメーター
説明
Spark 実行マシン
Hadoop クラスターに Spark が導入されている場合、Spark JAR タスク を有効化できます。
Spark ローカルクライアント
参照先クラスターで Spark ローカルクライアントが有効になっている場合、このオプションはデフォルトで有効になります。
クリックして無効化できます。無効化後、このコンピュートソースにリンクされたプロジェクトでは Spark ローカルクライアントを使用できなくなります。リンクされたプロジェクト内 (下書きタスクを含む) で Spark ローカルクライアントを使用するタスクが 1 つでもある場合、無効化できません。
Spark SQL サービス構成
説明クラスター構成を参照 を選択し、参照先クラスターで Spark SQL サービスが有効になっていない場合、Spark SQL サービスを構成できません。
パラメーター
説明
Spark SQL タスク
Hadoop クラスターに Spark が導入されている場合、Spark SQL タスク を有効化できます。
説明データレイクテーブルフォーマットとして Paimon を選択した場合、Spark SQL タスクを無効化できません。
接続情報
クラスター構成を参照 または スタンドアロン構成 を選択します。
Spark バージョン
バージョン 3.x のみがサポートされます。
サービスタイプ
Spark JDBC アクセス用のサーバータイプを選択します。サポートされるサービスタイプはコンピュートエンジンによって異なります。詳細については、「コンピュートエンジンとサポートされるサービスタイプ」をご参照ください。
JDBC URL
Spark JDBC URL。そのデータベースは、Hive JDBC URL のデータベースと一致する必要があります。
説明スタンドアロン構成 を選択した場合、JDBC URL を編集できます。クラスター構成を参照 を選択した場合、JDBC URL を表示するのみです。
データベース
説明データベースを構成できるのは、[参照クラスター構成] を選択した場合のみです。
データベース名を入力します。ピリオド (.) は使用しないでください。最大長: 256 文字。
認証タイプ
説明リンク情報が 別途構成 に設定されている場合にのみ、データベースを設定できます。
サポートされる方法: 認証なし、LDAP、および Kerberos。
認証なし: Spark サービスのユーザー名を入力します。
LDAP: Spark サービスのユーザー名とパスワードを入力します。
説明「認証なし」または「LDAP」で指定するユーザーは、タスク実行権限を持っている必要があります。
Kerberos: Hadoop クラスターで Kerberos を使用している場合、Spark Kerberos を有効化し、Keytab ファイルおよびプリンシパルをアップロードします。
Keytab ファイル: Keytab ファイルをアップロードします。Spark Server から取得してください。
プリンシパル: Spark Keytab ファイルの Kerberos ユーザー名を入力します。
SQL タスクキュー設定
サービスタイプによって使用される SQL タスクキューが異なります。詳細は以下の通りです。
Spark Thrift Server: タスクキューはサポートされていません。
Kyuubi: HDFS 設定で構成された優先度付きキューを使用します。Kyuubi が YARN を使用してリソーススケジューリングを行う場合にのみ適用されます。本番タスクでは共有接続が使用されます。
Livy: HDFS 設定で構成された優先度付きキューを使用します。Livy が YARN を使用してリソーススケジューリングを行う場合にのみ適用されます。アドホッククエリおよび本番タスクでは新しい接続が使用されます。
MapReduce (MRS): HDFS 設定で構成された優先度付きキューを使用します。
Impala タスク構成
説明クラスター構成を参照 を選択し、参照先クラスターで Impala タスクが有効になっていない場合、Impala タスクサービスを構成できません。
パラメーター
説明
Impala タスク
Hadoop クラスターに Impala が導入されている場合、Impala タスクを有効化できます。
接続情報
[参照クラスター構成] または [スタンドアロン構成] を選択します。
JDBC URL
Impala JDBC 接続アドレスを入力します。例:
jdbc:Impala://host:port/database。この URL のデータベースは、Hive JDBC URL のデータベースと一致する必要があります。説明スタンドアロン構成 を選択した場合、JDBC URL を編集できます。クラスター構成を参照 を選択した場合、JDBC URL を表示するのみです。
データベース
説明データベースは、[参照クラスター構成] を選択した場合にのみ構成できます。
データベース名を入力します。ピリオド (.) は使用しないでください。最大長: 256 文字。
認証タイプ
説明リンク情報が 別途構成 に設定されている場合にのみ、データベースを設定できます。
サポートされる方法: 認証なし、LDAP、および Kerberos。
認証なし: Impala のユーザー名を入力します。
LDAP: Impala のユーザー名とパスワードを入力します。
Kerberos: Keytab ファイルをアップロードし、プリンシパルを設定します。
開発タスクリクエストプール
開発タスク用の Impala リクエストプール名を入力します。
定期タスクリクエストプール
定期タスク用の Impala リクエストプール名を入力します。
優先度付きタスクキュー
定期タスクのデフォルトキューを使用 または カスタム を選択します。
Dataphin は、優先度 (最高、高、中、低、最低) に基づいて Impala SQL タスクをキューにルーティングします。
カスタマイズする場合、日次論理テーブルタスクはデフォルトで中優先度キューを使用します。年次および月次論理テーブルタスクはデフォルトで低優先度キューを使用します。
スタンドアロン構成
基本コンピュートソース情報
パラメーター
説明
コンピュートソースタイプ
デフォルト: Hadoop。
コンピュートソース名
命名規則:
英字、数字、アンダースコア (_ )、ハイフン (- ) のみ使用可能。
最大長: 64 文字。
構成方法
スタンドアロン構成 を選択します。
データレイクテーブルフォーマット
デフォルトで無効です。有効化すると、データレイクテーブルフォーマットを選択できます。Hudi のみがサポートされます。
説明このオプションは、Cloudera Data Platform 7.x のみでサポートされます。
コンピュートソースの説明
簡潔な説明。最大長: 128 文字。
クラスター基本情報
説明基本クラスター情報を構成できるのは、スタンドアロン構成 を選択した場合のみです。
パラメーター
説明
クラスター ストレージ
コンピュート設定からのデフォルト値を使用します。設定不可です。OSS-HDFS クラスター以外には適用されません。
NameNode
+ 追加 をクリックします。NameNode の追加 ダイアログボックスでパラメーターを構成します。複数の NameNode を追加できます。
NameNode とは、HDFS クラスター内の NameNode ノードのホスト名または IP アドレスとポートです。例:
NameNode: 193.168.xx.xx
Web UI ポート: 50070
IPC ポート: 8020
Web UI ポートまたは IPC ポートのいずれか 1 つ以上が必要です。構成後、NameNode は次のように表示されます:
host=192.168.xx.xx,webUiPort=50070,ipcPort=8020。説明このオプションは、HDFS クラスターのみでサポートされます。
クラスター ストレージのルートディレクトリ
コンピュート設定からのデフォルト値を使用します。設定不可です。OSS-HDFS クラスター以外には適用されません。
AccessKey ID および AccessKey Secret
クラスター ストレージタイプが OSS-HDFS のため、クラスターの OSS にアクセスするには AccessKey ID と AccessKey Secret を指定する必要があります。既存の AccessKey を使用するか、または新しい AccessKey を作成するには、「AccessKey ペアの作成」をご参照ください。
重要AccessKey の漏洩リスクを軽減するため、AccessKey Secret は作成時に一度だけ表示され、その後は表示できません。安全に保管してください。
ここで設定した内容は、core-site.xml の設定をオーバーライドします。
core-site.xml
Hadoop クラスターから core-site.xml 構成ファイルをアップロードします。
hdfs-site.xml
Hadoop クラスターの HDFS から hdfs-site.xml 構成ファイルをアップロードします。
説明hdfs-site.xml 構成ファイルは、OSS-HDFS クラスター ストレージクラスにはアップロードできません。
hive-site.xml
Hadoop クラスターの Hive から hive-site.xml 構成ファイルをアップロードします。
yarn-site.xml
Hadoop クラスターの Hive から yarn-site.xml 構成ファイルをアップロードします。
その他の構成ファイル
Keytab ファイルをアップロードします。HDFS クラスターの NameNode から ipa-getkeytab コマンドを使用して取得してください。
タスク実行マシン
MapReduce または Spark JAR 実行マシンの接続アドレスを構成します。形式:
hostname:portまたはip:port。デフォルトポート: 22。認証タイプ
サポートされる方法: 認証なしおよび Kerberos。
Kerberos は、対称鍵ベースの身分認証プロトコルであり、シングルサインオン (SSO) をサポートしており、認証済みクライアントが HBase や HDFS などの複数のサービスにアクセスできるようにします。
Hadoop クラスターで Kerberos を使用している場合、クラスター Kerberos を有効化し、krb5 ファイルをアップロードするか、KDC サーバーのアドレスを設定します。
重要E-MapReduce 5.x の場合、krb5 ファイル構成 のみがサポートされます。
krb5 認証ファイル: Kerberos 認証用の krb5 ファイルをアップロードします。
KDC サーバーのアドレス: Kerberos 認証を完了するために使用する KDC サーバーのアドレスです。
説明KDC サーバーのアドレスを複数設定できます。セミコロン (;) で区切ってください。
HDFS 構成
パラメーター
説明
実行ユーザー名 および パスワード
コンピュート実行マシンへのログインに使用するユーザー名およびパスワードです。MapReduce タスクの実行および HDFS ストレージの読み取り・書き込みに使用されます。
重要ユーザーが MapReduce タスクを送信する権限を持っていることを確認してください。
認証タイプ
サポートされる方法: 認証なし および Kerberos。
説明OSS-HDFS クラスターでは、HDFS 認証はサポートされていません。代わりに core-site.xml の AccessKey が使用されます。
Hadoop クラスターで Kerberos を使用している場合、HDFS Kerberos を有効化し、Keytab ファイルおよびプリンシパルをアップロードします。
Keytab ファイル: Keytab ファイルをアップロードします。HDFS Server から取得してください。
プリンシパル: HDFS Keytab ファイルの Kerberos ユーザー名を入力します。
HDFS ユーザー
ファイルアップロード用のユーザー名を指定します。空白のままにした場合、実行ユーザー名が使用されます。Kerberos が無効になっている場合にのみ入力してください。
本番タスクのデフォルトキュー
本番環境での手動および定期タスクに使用する YARN リソースキューを入力します。
その他のタスクキュー
アドホッククエリ、データプレビュー、JDBC Driver アクセスなど、その他のタスクに使用する YARN リソースキューを入力します。
タスク優先度キュー
本番タスクのデフォルトキューを使用 または カスタム を選択します。
Dataphin は、優先度 (最高、高、中、低、最低) に基づいて Hive SQL タスクをキューにルーティングします。
Hive が Tez または Spark を実行エンジンとして使用する場合、タスク優先度が有効になるには、異なる優先度キューを割り当てる必要があります。
説明日次および時間単位の論理テーブルタスクは、デフォルトで中優先度キューを使用します。
年次および月次論理テーブルタスクは、デフォルトで低優先度キューを使用します。
Hive コンピュートエンジン構成
パラメーター
説明
JDBC URL
接続アドレス形式は以下の 3 種類をサポートしています。
HiveServer 接続アドレス:
jdbc:hive://{connection address}:{port}/{database name}。ZooKeeper 接続アドレス。例:
jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2。Kerberos 対応接続アドレス:
jdbc:hive2://{connection address}:{port}/{database name};principal=hive/_HOST@xx.com。
説明E-MapReduce 3.x、E-MapReduce 5.x、または Cloudera Data Platform の場合、Kerberos 対応 JDBC URL には複数の IP アドレスを含めることはできません。
認証タイプ
説明認証は、スタンドアロン構成 を選択した場合にのみ設定できます。
サポートされる方法: 認証なし、LDAP、および Kerberos。
認証なし: Hive サービスのユーザー名を入力します。
LDAP: Hive サービスのユーザー名とパスワードを入力します。
説明「認証なし」または「LDAP」で指定するユーザーは、タスク実行権限を持っている必要があります。
Kerberos: Hadoop クラスターで Kerberos を使用している場合、Hive Kerberos を有効化し、Keytab ファイルおよびプリンシパルをアップロードします。
Keytab ファイル: Keytab ファイルをアップロードします。Hive Server から取得してください。
プリンシパル: Hive Keytab ファイルの Kerberos ユーザー名を入力します。
実行エンジン
デフォルト: このコンピュートソースにバインドされたプロジェクト内のタスク (論理テーブルタスクを含む) は、この実行エンジンをデフォルトで使用します。
カスタム: 別のコンピュートエンジンタイプを選択します。
Hive メタデータ構成
メタデータ取得方法: メタデータデータベース、HMS、および DLF の 3 つの方法から選択できます。必要なパラメーターは、選択した方法によって異なります。
重要DLF は、E-MapReduce 5.x を使用するクラスターでのみサポートされます。
DLF を使用するには、まず hive-site.xml 構成ファイルをアップロードする必要があります。
メタデータ取得方法
パラメーター
説明
メタデータデータベース
データベースタイプ
クラスターで使用するデータベースタイプを選択します。Dataphin は MySQL をサポートしています。
サポートされる MySQL バージョンには、MySQL 5.1.43、MySQL 5.6/5.7、および MySQL 8 が含まれます。
JDBC URL
対象データベースへの JDBC 接続アドレスを入力します。例:
MySQL:
jdbc:mysql://{connection address}[,failoverhost...]{port}/{database name} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...。ユーザー名 および パスワード
メタデータデータベースへのログインに使用するユーザー名およびパスワードを入力します。
HMS
認証タイプ
HMS は 認証なし、LDAP、および Kerberos をサポートしています。Kerberos の場合、Keytab ファイルをアップロードし、プリンシパルを設定します。
DLF
エンドポイント
クラスターが配置されているリージョンの DLF エンドポイントを入力します。手順については、「サポートされるリージョンとエンドポイント」をご参照ください。
AccessKey ID および AccessKey Secret
クラスター所有者のアカウントの AccessKey ID および AccessKey Secret を入力します。既存の AccessKey を使用するか、または新しい AccessKey を作成するには、「AccessKey ペアの作成」をご参照ください。
説明AccessKey の漏洩リスクを軽減するため、AccessKey Secret は作成時に一度だけ表示され、その後は表示できません。安全に保管してください。
Spark JAR サービス構成
パラメーター
説明
Spark Executor
Hadoop クラスターに Spark が導入されている場合、Spark JAR タスク を有効化できます。
実行ユーザー名 および パスワード
コンピュート実行マシンへのログインに使用するユーザー名およびパスワードを入力します。
重要ユーザーは、MapReduce タスクを送信する権限を持っている必要があります。
認証タイプ
サポートされる方法: 認証なし または Kerberos。
Hadoop クラスターで Kerberos を使用している場合、Spark Kerberos を有効化し、Keytab ファイルおよびプリンシパルをアップロードします。
Keytab ファイル: Keytab ファイルをアップロードします。Spark Server から取得してください。
プリンシパル: Spark Keytab ファイルの Kerberos ユーザー名を入力します。
Spark SQL サービス構成
パラメーター
説明
Spark SQL タスク
Hadoop クラスターに Spark が導入されている場合、Spark SQL タスク を有効化できます。
Spark バージョン
バージョン 3.x のみがサポートされます。
サービスタイプ
Spark JDBC アクセス用のサーバータイプを選択します。サポートされるサービスタイプはコンピュートエンジンによって異なります。詳細については、「コンピュートエンジンとサポートされるサービスタイプ」をご参照ください。
JDBC URL
Spark JDBC URL。そのデータベースは、Hive JDBC URL のデータベースと一致する必要があります。
認証タイプ
サポートされる方法: 認証なし、LDAP、および Kerberos。
認証なし: Spark サービスのユーザー名を入力します。
LDAP: Spark サービスのユーザー名とパスワードを入力します。
説明「認証なし」または「LDAP」で指定するユーザーは、タスク実行権限を持っている必要があります。
Kerberos: Hadoop クラスターで Kerberos を使用している場合、Spark Kerberos を有効化し、Keytab ファイルおよびプリンシパルをアップロードします。
Keytab ファイル: Keytab ファイルをアップロードします。Spark Server から取得してください。
プリンシパル: Spark Keytab ファイルの Kerberos ユーザー名を入力します。
SQL タスクキュー設定
サービスタイプによって使用される SQL タスクキューが異なります。詳細は以下の通りです。
Spark Thrift Server: タスクキューはサポートされていません。
Kyuubi: HDFS 設定で構成された優先度付きキューを使用します。Kyuubi が YARN を使用してリソーススケジューリングを行う場合にのみ適用されます。本番タスクでは共有接続が使用されます。
Livy: HDFS 設定で構成された優先度付きキューを使用します。Livy が YARN を使用してリソーススケジューリングを行う場合にのみ適用されます。アドホッククエリおよび本番タスクでは新しい接続が使用されます。
MapReduce (MRS): HDFS 設定で構成された優先度付きキューを使用します。
Impala タスク構成
パラメーター
説明
Impala タスク
Hadoop クラスターに Impala が導入されている場合、Impala タスクを有効化できます。
JDBC URL
Impala JDBC 接続アドレスを入力します。例:
jdbc:Impala://host:port/database。この URL のデータベースは、Hive JDBC URL のデータベースと一致する必要があります。説明クラスター構成を参照 を選択した場合、JDBC URL を表示するのみです。
認証タイプ
サポートされる方法: 認証なし、LDAP、および Kerberos。
認証なし: Impala のユーザー名を入力します。
LDAP: Impala のユーザー名とパスワードを入力します。
Kerberos: Keytab ファイルをアップロードし、プリンシパルを設定します。
開発タスクリクエストプール
開発タスク用の Impala リクエストプール名を入力します。
定期タスクリクエストプール
定期タスク用の Impala リクエストプール名を入力します。
優先度付きタスクキュー
定期タスクのデフォルトキューを使用 または カスタム を選択します。
Dataphin は、優先度 (最高、高、中、低、最低) に基づいて Impala SQL タスクをキューにルーティングします。
カスタマイズする場合、日次論理テーブルタスクはデフォルトで中優先度キューを使用します。年次および月次論理テーブルタスクはデフォルトで低優先度キューを使用します。
接続のテスト をクリックして、コンピュートソースへの接続を確認します。
接続テストが成功した後、送信 をクリックします。
次のステップ
Hadoop コンピュートソースを作成した後、プロジェクトにバインドする必要があります。詳細については、「汎用プロジェクトの作成」をご参照ください。