Hadoop コンピュートソースは、Dataphin プロジェクトを Hadoop プロジェクトに接続します。Dataphin プロジェクトがオフラインコンピューティングタスクを処理するために必要なコンピュートリソースを提供します。Dataphin コンピュートエンジンが Hadoop に設定されている場合、プロジェクトには、標準モデリング、アドホッククエリ、Hive タスク、汎用スクリプトなどの機能をサポートするための Hadoop コンピュートソースが必要です。このトピックでは、Hadoop コンピュートソースを作成する方法について説明します。
前提条件
開始する前に、次の要件が満たされていることを確認してください:
Dataphin コンピュートエンジンが Hadoop に設定されていること。詳細については、「コンピュートエンジンを Hadoop に設定する」をご参照ください。
Hive ユーザーに次の権限が付与されていること:
CREATEFUNCTION 権限。
重要CREATEFUNCTION 権限は、Dataphin を介して Hive にユーザー定義関数 (UDF) を登録するために必要です。この権限がないと、Dataphin で UDF を作成したり、Dataphin のアセットセキュリティ機能を使用したりすることはできません。
Hadoop 分散ファイルシステム (HDFS) で UDF が保存されているディレクトリに対する読み取り、書き込み、および実行権限。
UDF のデフォルトの HDFS ディレクトリは
/tmp/dataphinです。このディレクトリは必要に応じて変更できます。
クイック検索とデータ分析のために Impala タスクを有効にするには、Hadoop クラスターに Impala V2.5 以降をデプロイする必要があります。
E-MapReduce 5.x コンピュートエンジンを使用し、オフライン統合のために OSS ベースの Hive 外部テーブルを使用する必要がある場合は、必要な構成を完了する必要があります。詳細については、「オフライン統合に OSS ベースの Hive 外部テーブルを使用する」をご参照ください。
Impala タスクの制限
クイック検索とデータ分析のために Impala タスクを有効にするには、Dataphin で次の制限が適用されます:
Impala V2.5 以降のみがサポートされています。
論理テーブルは Impala エンジンをサポートしていません。ただし、Impala を使用して論理テーブルをクエリすることはできます。
Dataphin の Impala データソースとコンピュートソースは、Impala Java Database Connectivity (JDBC) クライアントを使用して、デフォルトで 21050 の Impala JDBC ポートに接続します。Hive JDBC ポートはサポートされていません。Dataphin で Impala タスクまたはデータソースを作成する場合は、クラスタープロバイダーに連絡して、Impala JDBC 接続がサポートされていることを確認してください。
Hive は Kudu テーブルにアクセスできません。これにより、次の制限が発生します:
Hive SQL を使用して Kudu テーブルにアクセスすることはできません。これを行おうとすると、SQL 文が失敗し、次のエラーが返されます:
FAILED: RuntimeException java.lang.ClassNotFoundException: org.apache.Hadoop.hive.kudu.KuduInputFormat。モデリングのソーステーブルとして Kudu テーブルを使用することはできません。ソーステーブルが Kudu テーブルの場合、実行は失敗します。
アセットセキュリティスキャンタスクは、Impala SQL を使用して Kudu テーブルをスキャンします。スキャンタスクが配置されているプロジェクトで Impala が有効になっていない場合、Kudu テーブルはスキャンできません。
Kudu テーブルに対して品質ルールが実行されると、検証に Impala SQL が使用されます。Impala が有効になっていない場合、検証タスクは失敗します。
ラベルプラットフォームは、Kudu テーブルをオフラインビューテーブルとして使用することをサポートしていません。
Kudu テーブルのストレージ使用量を取得できません。
Kudu テーブルのストレージ使用量は、アセット詳細では利用できません。
リソース管理の空のテーブル管理機能は、Kudu テーブルをサポートしていません。
テーブルサイズとパーティションサイズの品質ルールは、Kudu テーブルをサポートしていません。
Spark SQL サービスの制限
Spark SQL サービスを有効にするには、Dataphin で次の制限が適用されます:
Spark V3.x のみがサポートされています。
Spark Thrift Server、Kyuubi、または Livy サービスを Hadoop クラスターにデプロイして有効にする必要があります。
Dataphin は Spark Call コマンドのデータベース権限を検証しません。この機能は注意して使用してください。
Spark SQL のサービス構成は、開発コンピュートソースと本番コンピュートソースで同じである必要があります。異なる場合、Spark SQL タスクの Spark リソース設定を構成することはできません。
コンピュートエンジンとサポートされているサービスタイプ
コンピュートエンジンによってサポートされるサービスタイプは異なります。次の表に詳細を示します:
コンピュートエンジンタイプ | Spark Thrift Server | Kyuubi | Livy | MapReduce(MRS) |
E-MapReduce 3.x | サポートされている | サポートされている | サポートされていません | サポートされていません |
E-MapReduce 5.x | サポートされている | サポートされている | サポートされていません | サポートされていません |
CDH 5.X、CDH 6.X | サポートされていません | サポートされている | サポートされていません | サポートされていません |
Cloudera Data Platform | サポートされていません | サポートされている | サポートされている | サポートされていません |
FusionInsight 8.X | サポートされていません | サポートされていません | サポートされていません | サポートされている |
AsiaInfo DP 5.3 | サポートされている | サポートされている | サポートされていません | サポートされていません |
手順
Dataphin ホームページのトップメニューバーで、[計画] > [コンピュートソース] を選択します。
[コンピュートソース] ページで、[+ コンピュートソースの追加] をクリックし、[Hadoop コンピュートソース] を選択します。
[コンピュートソースの作成] ページで、次のパラメーターを設定します。
コンピュートソースは、[指定されたクラスターを参照] または [個別に構成] を選択して構成できます。使用可能な設定項目は、選択したメソッドによって異なります。
指定されたクラスタ構成の参照
コンピュートソースの基本情報
パラメータ
説明
計算ソースの種類
デフォルト値は Hadoop です。
計算ソース名
次の命名規則に従ってください:
名前には、漢字、英字、数字、アンダースコア (_)、ハイフン (-) のみを含めることができます。
名前は最大 64 文字まで使用できます。
構成方法
[指定されたクラスタを参照] を選択します。
データレイクテーブル形式
この機能はデフォルトで無効になっています。有効にすると、データレイクテーブルフォーマットを選択できます。
コンピュートエンジンが Cloudera Data Platform 7.x の場合、Hudi テーブルフォーマットがサポートされます。
コンピュートエンジンが E-MapReduce 5.x の場合、Iceberg および Paimon テーブルフォーマットがサポートされます。
説明このパラメーターは、コンピュートエンジンが Cloudera Data Platform 7.x または E-MapReduce 5.x の場合にのみ使用できます。
計算ソースの説明
コンピュートソースの簡単な説明。説明は最大 128 文字です。
キュー情報構成
パラメータ
説明
本番タスクキュー
YARN リソースキューを入力します。このキューは、本番環境で手動タスクと定期タスクを実行するために使用されます。
その他のタスクキュー
YARN リソースキューを入力します。このキューは、アドホッククエリ、データプレビュー、JDBC ドライバーアクセスなどの他のタスクに使用されます。
優先タスクキュー
[本番タスクのデフォルトキューを使用] または [カスタム] を選択できます。
[カスタム] を選択した場合は、最高、高、中、低、最低の優先度に対応する YARN リソースキューを入力する必要があります。
Hive 計算エンジン構成
パラメータ
説明
接続情報
[クラスター構成の参照] または [個別に構成] を選択できます。
JDBC URL
次のいずれかのタイプのエンドポイントを構成できます:
Hive サーバーのエンドポイント。フォーマット:
jdbc:hive://{endpoint}:{port}/{database_name}。ZooKeeper のエンドポイント。例:
jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2。Kerberos 認証が有効なエンドポイント。フォーマット:
jdbc:hive2://{endpoint}:{port}/{database_name};principal=hive/_HOST@xx.com。
説明[接続情報] で [個別に構成] を選択した場合、JDBC URL を変更できます。[クラスター構成の参照] を選択した場合、[JDBC URL] は表示専用です。
データベース
説明このパラメーターは、[接続情報] で [クラスター構成の参照] を選択した場合にのみ使用できます。
データベース名を入力します。名前にピリオド (.) を含めることはできず、最大 256 文字です。
認証タイプ
説明このパラメーターは、[接続情報] で [個別に構成] を選択した場合にのみ使用できます。
サポートされている認証方式は、[認証なし]、[LDAP]、[Kerberos] です。
認証なし: Hive サービスのユーザー名を入力します。
LDAP: Hive サービスのユーザー名とパスワードを入力します。
説明[認証なし] および [LDAP] 方式の場合、指定したユーザーにタスクを実行する権限があることを確認してください。
Kerberos: Hadoop クラスターが Kerberos 認証を使用している場合は、Hive Kerberos を有効にし、keytab ファイルをアップロードして、プリンシパルを構成します。
Keytab ファイル: keytab ファイルをアップロードします。このファイルは Hive サーバーから取得できます。
プリンシパル: Hive keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。
実行エンジン
デフォルト: このコンピュートソースにアタッチされているプロジェクトのノード (論理テーブルタスクを含む) は、デフォルトでこの実行エンジンを使用します。
カスタム: 別のタイプの実行エンジンを選択します。
Spark Jar サービス構成
説明[クラスター構成の参照] を選択し、参照先のクラスターで [Spark ローカルクライアント] が有効になっていない場合、Spark Jar サービスを構成できません。
パラメータ
説明
Spark 実行マシン
Spark が Hadoop クラスターにデプロイされている場合は、[Spark Jar タスク] を有効にできます。
Spark ローカルクライアント
参照先のクラスターで Spark ローカルクライアントが有効になっている場合、このオプションはデフォルトで有効になります。
無効にすると、現在のコンピュートソースに対応するプロジェクトは Spark ローカルクライアントを使用できなくなります。プロジェクトに Spark ローカルクライアントを使用するノード (ドラフトノードを含む) が含まれている場合、このオプションを無効にすることはできません。
Spark SQL サービス構成
説明[クラスター構成の参照] を選択し、参照先のクラスターで [Spark SQL サービス] が有効になっていない場合、Spark SQL サービスを構成できません。
パラメータ
説明
Spark SQL タスク
Spark が Hadoop クラスターにデプロイされている場合は、[Spark SQL タスク] を有効にできます。
説明[データレイクテーブルフォーマット] に [Paimon] を選択した場合、Spark SQL タスクを無効にすることはできません。
接続情報
[クラスター構成の参照] または [個別に構成] を選択できます。
Spark バージョン
Spark V3.x のみがサポートされています。
サービスタイプ
Spark JDBC アクセスのターゲットサーバーのタイプを選択します。コンピュートエンジンによってサポートされるサービスタイプは異なります。詳細については、「コンピュートエンジンとサポートされているサービスタイプ」をご参照ください。
JDBC URL
Spark の JDBC URL。URL 内のデータベースは、Hive JDBC URL で指定されたデータベースと同じである必要があります。
説明[接続情報] で [個別に構成] を選択した場合、JDBC URL を変更できます。[クラスター構成の参照] を選択した場合、[JDBC URL] は表示専用です。
データベース
説明このパラメーターは、[接続情報] で [クラスター構成の参照] を選択した場合にのみ使用できます。
データベース名を入力します。名前にピリオド (.) を含めることはできず、最大 256 文字です。
認証方式
説明このパラメーターは、[接続情報] で [個別に構成] を選択した場合にのみ使用できます。
サポートされている認証方式は、[認証なし]、[LDAP]、[Kerberos] です。
認証なし: Spark サービスのユーザー名を入力します。
LDAP: Spark サービスのユーザー名とパスワードを入力します。
説明[認証なし] および [LDAP] 方式の場合、指定したユーザーにタスクを実行する権限があることを確認してください。
Kerberos: Hadoop クラスターが Kerberos 認証を使用している場合は、Spark Kerberos を有効にし、keytab ファイルをアップロードして、プリンシパルを構成します。
Keytab ファイル: keytab ファイルをアップロードします。このファイルは Spark サーバーから取得できます。
プリンシパル: Spark keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。
SQL タスクキューの設定
サービスタイプによって使用される SQL タスクキューは異なります。詳細は次のとおりです:
Spark Thrift Server: タスクキューを設定できません。
Kyuubi: HDFS 情報設定の優先度付きキュー設定を使用します。これは、Kyuubi がリソーススケジューリングに YARN を使用する場合にのみ有効になります。本番タスクは接続共有レベルを使用します。
Livy: HDFS 情報設定の優先度付きキュー設定を使用します。これは、Livy がリソーススケジューリングに YARN を使用する場合にのみ有効になります。アドホッククエリと本番タスクは、新しい接続を使用して実行されます。
MapReduce (MRS): HDFS 情報設定の優先度付きキュー設定を使用します。
Impala タスク構成
説明[クラスター構成の参照] を選択し、参照先のクラスターで [Impala タスク] が有効になっていない場合、Impala タスクサービスを構成できません。
パラメータ
説明
Impala タスク
Impala が Hadoop クラスターにデプロイされている場合は、Impala タスクを有効にできます。
接続情報
[クラスター構成の参照] または [個別に構成] を選択できます。
JDBC URL
Impala の JDBC エンドポイントを入力します。例:
jdbc:Impala://host:port/database。JDBC URL のデータベースは、Hive JDBC URL のデータベースと同じである必要があります。説明[接続情報] で [個別に構成] を選択した場合、JDBC URL を変更できます。[クラスター構成の参照] を選択した場合、[JDBC URL] は表示専用です。
データベース
説明このパラメーターは、[接続情報] で [クラスター構成の参照] を選択した場合にのみ使用できます。
データベース名を入力します。名前にピリオド (.) を含めることはできず、最大 256 文字です。
認証タイプ
説明このパラメーターは、[接続情報] で [個別に構成] を選択した場合にのみ使用できます。
サポートされている認証方式は、[認証なし]、[LDAP]、[Kerberos] です。
認証なし: Impala のユーザー名を入力します。
LDAP: Impala のユーザー名とパスワードを入力します。
Kerberos: keytab ファイルをアップロードし、プリンシパルを構成します。
開発タスクリクエストプール
開発タスク用の Impala リクエストプールの名前を入力します。
定期タスクリクエストプール
定期タスク用の Impala リクエストプールの名前を入力します。
優先タスクキュー
[定期タスクのデフォルトキューを使用] と [カスタム] をサポートしています。
Dataphin が Impala SQL タスクをスケジュールすると、タスクをその優先度に基づいて対応するキューに送信して実行します。優先度は、最高、高、中、低、最低です。
優先度付きタスクキューをカスタマイズする場合、毎日実行するようにスケジュールされた論理テーブルタスクは、デフォルトで中優先度のタスクキューを使用します。毎年または毎月実行するようにスケジュールされた論理テーブルタスクは、デフォルトで低優先度のタスクキューを使用します。
個別に構成
コンピュートソースの基本情報
パラメータ
説明
計算ソースの種類
デフォルト値は Hadoop です。
計算ソース名
次の命名規則に従ってください:
名前には、漢字、英字、数字、アンダースコア (_)、ハイフン (-) のみを含めることができます。
名前は最大 64 文字までです。
構成方法
[個別に構成] を選択します。
データレイクテーブル形式
この機能はデフォルトで無効になっています。有効にすると、データレイクテーブルフォーマットを選択できます。現在、Hudi のみがサポートされています。
説明このパラメーターは、コンピュートエンジンが Cloudera Data Platform 7.x の場合にのみ使用できます。
計算ソースの説明
コンピュートソースの簡単な説明。説明は最大 128 文字です。
クラスターの基本情報
説明クラスターの基本情報は、[個別に構成] を選択した場合にのみ構成できます。
パラメータ
説明
クラスタストレージ
このパラメーターは、コンピュート設定で構成された値に設定されており、変更できません。このパラメーターは、OSS-HDFS ストレージを使用しないクラスターでは使用できません。
NameNode
[+ 追加] をクリックします。[NameNode の追加] ダイアログボックスで、パラメーターを構成します。複数の NameNode を追加できます。
NameNode は、HDFS クラスター内の NameNode のホスト名または IP アドレスとポートです。例:
NameNode:193.168.xx.xx
Web UI ポート:50070
IPC ポート:8020
Web UI ポートと IPC ポートの少なくとも 1 つを選択する必要があります。構成後、NameNode は
host=192.168.xx.xx,webUiPort=50070,ipcPort=8020になります。説明このパラメーターは、[クラスターのストレージ] を HDFS に設定した場合にのみ使用できます。
クラスタストレージのルートディレクトリ
このパラメーターは、コンピュート設定で構成された値に設定されており、変更できません。このパラメーターは、OSS-HDFS ストレージを使用しないクラスターでは使用できません。
AccessKey ID、AccessKey Secret
クラスターのストレージタイプが OSS-HDFS の場合は、クラスターの OSS へのアクセスに使用される AccessKey ID と AccessKey シークレットを入力します。AccessKey ペアの表示方法の詳細については、「」RAM ユーザーの AccessKey ペアを表示するをご参照ください。
重要ここに入力した構成は、core-site.xml ファイルで構成された AccessKey ペアよりも優先度が高くなります。
core-site.xml
Hadoop クラスタの core-site.xml 構成ファイルをアップロードします。
hdfs-site.xml
Hadoop クラスターの HDFS の hdfs-site.xml 構成ファイルをアップロードします。
説明クラスターのストレージタイプが OSS-HDFS の場合、hdfs-site.xml 構成ファイルをアップロードできません。
hive-site.xml
Hadoop クラスターの Hive の hive-site.xml 構成ファイルをアップロードします。
yarn-site.xml
Hadoop クラスターの Hive の yarn-site.xml 構成ファイルをアップロードします。
その他の構成ファイル
keytab ファイルをアップロードします。HDFS クラスターの NameNode で ipa-getkeytab コマンドを実行してファイルを取得できます。
[タスク実行マシン]
MapReduce または Spark Jar タスクを実行するマシンのエンドポイントを構成します。フォーマット:
hostname:portまたはip:port。デフォルトのポートは 22 です。認証タイプ
サポートされている認証方式は、認証なしと Kerberos です。
Kerberos は、対称キー技術に基づく身分認証プロトコルです。他のサービスに身分認証を提供し、シングルサインオン (SSO) をサポートします。クライアントが認証されると、HBase や HDFS などの複数のサービスにアクセスできます。
Hadoop クラスターが Kerberos 認証を使用している場合は、クラスター Kerberos を有効にし、krb5.conf ファイルをアップロードするか、KDC サーバーアドレスを構成します。
重要コンピューティングエンジンのタイプが E-MapReduce 5.x の場合、[krb5 ファイル設定] メソッドのみがサポートされます。
Krb5 認証ファイル: Kerberos 認証用の krb5.conf ファイルをアップロードします。
KDC サーバーアドレス: Kerberos 認証を支援するキー配布センター (KDC) サーバーのアドレス。
説明複数の KDC サーバーアドレスを構成できます。セミコロン (;) で区切ります。
HDFS 情報設定
パラメーター
説明
[実行ユーザー名]、[パスワード]
タスク実行マシンにログインするためのユーザー名とパスワード。MapReduce タスクの実行、および HDFS からのデータの読み取りと HDFS へのデータの書き込みに使用されます。
重要MapReduce タスクを送信する権限があることを確認してください。
[認証タイプ]
サポートされている方式は、[認証なし] と [Kerberos] です。
説明クラスターのストレージが OSS-HDFS の場合、HDFS 認証方式を構成できません。デフォルトでは、core-site.xml ファイルの AccessKey ペアが使用されます。
Hadoop クラスターが Kerberos 認証を使用している場合は、HDFS Kerberos を有効にし、keytab ファイルをアップロードして、プリンシパルを構成します。
Keytab ファイル: keytab ファイルをアップロードします。このファイルは HDFS サーバーから取得できます。
プリンシパル: HDFS keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。
[HDFS ユーザー]
ファイルアップロード用のユーザー名。空のままにすると、デフォルトで実行ユーザー名が使用されます。このパラメーターは、[Kerberos] が無効になっている場合に設定できます。
本番タスクのデフォルトキュー
YARN リソースキューを入力します。このキューは、本番環境で手動タスクと定期タスクを実行するために使用されます。
[その他のタスクキュー]
YARN リソースキューを入力します。このキューは、アドホッククエリ、データプレビュー、JDBC ドライバーアクセスなどの他のタスクに使用されます。
[タスク優先度キュー]
[本番タスクのデフォルトキューを使用] または [カスタム] を選択できます。
Dataphin が Hive SQL タスクをスケジュールすると、タスクをその優先度に基づいて対応するキューに送信して実行します。優先度は、最高、高、中、低、最低です。
Hive 実行エンジンを Tez または Spark に設定した場合、タスクの優先度設定を有効にするには、異なる優先度付きキューを構成する必要があります。
説明毎日または毎時実行するようにスケジュールされた論理テーブルタスクは、デフォルトで中優先度のタスクキューを使用します。
毎年または毎月実行するようにスケジュールされた論理テーブルタスクは、デフォルトで低優先度のタスクキューを使用します。
Hive 計算エンジン設定
パラメータ
説明
JDBC URL
次のいずれかのタイプのエンドポイントを構成できます:
Hive サーバーのエンドポイント。フォーマット:
jdbc:hive://{endpoint}:{port}/{database_name}。ZooKeeper のエンドポイント。例:
jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2。Kerberos 認証が有効なエンドポイント。フォーマット:
jdbc:hive2://{endpoint}:{port}/{database_name};principal=hive/_HOST@xx.com。
認証タイプ
説明このパラメーターは、[接続情報] で [個別に構成] を選択した場合にのみ使用できます。
サポートされている認証方式は、[認証なし]、[LDAP]、[Kerberos] です。
認証なし: Hive サービスのユーザー名を入力します。
LDAP: Hive サービスのユーザー名とパスワードを入力します。
説明[認証なし] および [LDAP] 方式の場合、指定したユーザーにタスクを実行する権限があることを確認してください。
Kerberos: Hadoop クラスターが Kerberos 認証を使用している場合は、Hive Kerberos を有効にし、keytab ファイルをアップロードして、プリンシパルを構成します。
Keytab ファイル: keytab ファイルをアップロードします。このファイルは Hive サーバーから取得できます。
プリンシパル: Hive keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。
実行エンジン
デフォルト: このコンピュートソースにアタッチされているプロジェクトのノード (論理テーブルタスクを含む) は、デフォルトでこの実行エンジンを使用します。
カスタム: 別のタイプの実行エンジンを選択します。
Hive メタデータ設定
メタデータ取得方法: 3 つのメタデータ取得方法がサポートされています: [メタデータベース]、[HMS]、[DLF]。各方法には異なる構成情報が必要です。
重要DLF 取得方法は、コンピュートエンジンとして E-MapReduce 5.x Hadoop を使用するクラスターでのみサポートされます。
DLF 方式を使用してメタデータを取得するには、まず hive-site.xml 構成ファイルをアップロードする必要があります。
メタデータ取得方法
パラメーター
説明
[メタデータベース]
[データベースの種類]
クラスターで使用されるメタデータベースタイプに基づいてデータベースを選択します。Dataphin は MySQL をサポートしています。
サポートされている MySQL バージョンは、MySQL 5.1.43、MySQL 5.6/5.7、MySQL 8 です。
[JDBC URL]
ターゲットデータベースの JDBC エンドポイントを入力します。例:
MySQL: フォーマットは
jdbc:mysql://{connection address}[,failoverhost...]{port}/{database name} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...です。[ユーザー名]、[パスワード]
メタデータベースにログインするためのユーザー名とパスワードを入力します。
[HMS]
[認証タイプ]
HMS 取得方法は、[認証なし]、[LDAP]、[Kerberos] をサポートしています。Kerberos 認証方式では、keytab ファイルをアップロードし、プリンシパルを構成する必要があります。
[DLF]
[エンドポイント]
クラスターの DLF のデータセンターが配置されているリージョンのエンドポイントを入力します。エンドポイントを取得するには、「」DLF のリージョンとエンドポイントをご参照ください。
[accesskey ID]、[accesskey Secret]
クラスターが属するアカウントの AccessKey ID と AccessKey シークレットを入力します。
アカウントの AccessKey ID と AccessKey シークレットは、ユーザー情報管理ページで取得できます。
Spark Jar サービス設定
パラメーター
説明
Spark 実行マシン
Spark が Hadoop クラスターにデプロイされている場合は、[Spark Jar タスク] を有効にできます。
[実行ユーザー名]、[パスワード]
タスク実行マシンにログインするためのユーザー名とパスワードを入力します。
重要MapReduce タスクを送信する権限が付与されています。
[認証タイプ]
サポートされている認証方式は、[認証なし] と [Kerberos] です。
Hadoop クラスターが Kerberos 認証を使用している場合は、Spark Kerberos を有効にし、keytab ファイルをアップロードして、プリンシパルを構成します。
Keytab ファイル: keytab ファイルをアップロードします。このファイルは Spark サーバーから取得できます。
プリンシパル: Spark keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。
Spark SQL サービス設定
パラメーター
説明
Spark SQL タスク
Spark が Hadoop クラスターにデプロイされている場合は、[Spark SQL タスク] を有効にできます。
Spark バージョン
Spark V3.x のみがサポートされています。
サービスタイプ
Spark JDBC アクセスのターゲットサーバーのタイプを選択します。コンピュートエンジンによってサポートされるサービスタイプは異なります。詳細については、「コンピュートエンジンとサポートされているサービスタイプ」をご参照ください。
JDBC URL
Spark の JDBC URL。URL 内のデータベースは、Hive JDBC URL で指定されたデータベースと同じである必要があります。
認証方式
サポートされている認証方式は、[認証なし]、[LDAP]、[Kerberos] です。
認証なし: Spark サービスのユーザー名を入力します。
LDAP: Spark サービスのユーザー名とパスワードを入力します。
説明[認証なし] および [LDAP] 方式の場合、指定したユーザーにタスクを実行する権限があることを確認してください。
Kerberos: Hadoop クラスターが Kerberos 認証を使用している場合は、Spark Kerberos を有効にし、keytab ファイルをアップロードして、プリンシパルを構成します。
Keytab ファイル: keytab ファイルをアップロードします。このファイルは Spark サーバーから取得できます。
プリンシパル: Spark keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。
SQL タスクキューの設定
サービスタイプによって使用される SQL タスクキューは異なります。詳細は次のとおりです:
Spark Thrift Server: タスクキューを設定できません。
Kyuubi: HDFS 情報設定の優先度付きキュー設定を使用します。これは、Kyuubi がリソーススケジューリングに YARN を使用する場合にのみ有効になります。本番タスクは接続共有レベルを使用します。
Livy: HDFS 情報設定の優先度付きキュー設定を使用します。これは、Livy がリソーススケジューリングに YARN を使用する場合にのみ有効になります。アドホッククエリと本番タスクは、新しい接続を使用して実行されます。
MapReduce (MRS): HDFS 情報設定の優先度付きキュー設定を使用します。
Impala タスク設定
パラメーター
説明
Impala タスク
Impala が Hadoop クラスターにデプロイされている場合は、Impala タスクを有効にできます。
JDBC URL
Impala の JDBC エンドポイントを入力します。例:
jdbc:Impala://host:port/database。JDBC URL のデータベースは、Hive JDBC URL のデータベースと同じである必要があります。説明接続情報に [クラスター構成の参照] を選択した場合、JDBC URL は表示専用です。
認証タイプ
サポートされている認証方式は、[認証なし]、[LDAP]、[Kerberos] です。
認証なし: Impala のユーザー名を入力します。
LDAP: Impala のユーザー名とパスワードを入力します。
Kerberos: keytab ファイルをアップロードし、プリンシパルを構成します。
開発タスクリクエストプール
開発タスク用の Impala リクエストプールの名前を入力します。
定期タスクリクエストプール
定期タスク用の Impala リクエストプールの名前を入力します。
優先タスクキュー
[定期タスクのデフォルトキューを使用] と [カスタム] をサポートしています。
Dataphin が Impala SQL タスクをスケジュールすると、タスクをその優先度に基づいて対応するキューに送信して実行します。優先度は、最高、高、中、低、最低です。
優先度付きタスクキューをカスタマイズする場合、毎日実行するようにスケジュールされた論理テーブルタスクは、デフォルトで中優先度のタスクキューを使用します。毎年または毎月実行するようにスケジュールされた論理テーブルタスクは、デフォルトで低優先度のタスクキューを使用します。
[接続テスト] をクリックして、コンピューティングソースへの接続をテストします。
接続テストが成功したら、[送信] をクリックします。
次のステップ
Hadoop コンピュートソースを作成したら、それをプロジェクトにアタッチできます。詳細については、「汎用プロジェクトの作成」をご参照ください。